AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮

 QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen

にしては珍しく考えてることを<think>トークンに出してくれない(そのまま垂れ流す)

より前からあるのでフォーマットが違うのだろう

例題として出されてる下記の問題、本当に難しいらしく多くのモデルが失敗する

Please add a pair of parentheses to the incorrect equation: 1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479, to make the equation true.

も解けない、自力で解いたのこのモデル以外だと

 72Bは正解できた。この3つもSCoTによるガイド無しでは解けない。

もしかしたら数学力はかなり上位のモデルかも知れない…