generated at
QwQ-32B-Preview
https://gigazine.net/news/20241128-alibaba-qwen-qwq-32b-preview/ AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮
https://qwenlm.github.io/blog/qwq-32b-preview/ QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen

最近主流のReasoning Modelにしては珍しく考えてることを<think>トークンに出してくれない(そのまま垂れ流す)morisoba65536
そもそもDeepSeek-R1より前からあるのでフォーマットが違うのだろう
例題として出されてる下記の問題、本当に難しいらしく多くのモデルが失敗する
>Please add a pair of parentheses to the incorrect equation: 1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479, to make the equation true.
上位モデルのはずのQVQ-72Bも何故か解けない
DeepSeek-R1も解けない、自力で解いたのこのモデル以外だとo3-mini位なんですよね…morisoba65536
SCoTでガイドするとClaude 3.5 SonnetQwen2.5-Max、以外にもQwen2.5-VL 72Bは正解できた。この3つもSCoTによるガイド無しでは解けない。
もしかしたら数学力はかなり上位のモデルかも知れない…