generated at
ToT (Tree of Thoughts)

複雑な推論をさせるときに、CoTだと推論の途中で間違えても突き進んでしまう
そこで考えられたのが、ToT
ToT の場合は思考の各ステップで LLM 自身による評価を挟む
つまり、「無理筋」を早々に打ち切って、別のアプローチを探索する。
これは、極めて人間の思考回路に近い。
ゴールへの道筋がいくつもあって、正解に辿り着くのが難しい問題に有効


プロンプトの例
3人の専門家を登場させて、中間思考を表現するToTプロンプト
LLMは単一のプロンプトで中間思考を評価することができる
>この質問について、3人の異なる専門家が回答していると想像してください。
> すべての専門家は、自分の思考の1つのステップを書き留め、
> それをグループと共有します。
> その後、すべての専門家は次のステップに進みます。以後同様です。
> もし専門家の中に、いかなる時点で誤りに気づいた場合は、退場します。
> 質問は...


実行結果
日本語記事(これあってる??)
発散 -> 評価 -> 深掘り -> 収束

ToTがうまれた背景
通常の CoT (Chain-of-Thought) だと、LLM は問題の答えに向けて一直線に考えるため、その過程で何か間違っていたとしても誤った考えに基づいたまま突き進んでしまう。
猪突猛進で、一方通行のため、難しい問題の場合、間違った答えに導いてしまうことがある。
そこで開発されたのが、Self-Consistency + CoT (Chain-of-Thought)
答えを複数提示して、その中から適切な回答を選ぶプロンプトが考えられた。
ただこの方法も複雑なプロセスを経るような問題では、全部の回答を片っ端から検証/評価しなければならず、超大変
そこで開発されたのが、ToT
ToT の場合は思考の各ステップで LLM 自身による評価を挟む
つまり、「無理筋」を早々に打ち切って、別のアプローチを探索する。
これは、極めて人間の思考回路に近い。


どんな時にToTは威力を発揮する?
「ゴールへの道筋がいくつもあって、正解に辿り着くのが難しい問題」
この手法は、囲碁、将棋、自動運転などで活用される、強化学習を応用したもの

ToTは、思考が問題解決への中間ステップとなる一貫した言語の連続を表す思考の木を保持する。
このアプローチにより、LLMは熟考プロセスを通じて中間の思考の達成度を自己評価することが可能。
思考の生成と評価能力は、探索アルゴリズム(例:幅優先探索や深さ優先探索)と組み合わされ、先読みとバックトラッキングを伴う思考の系統的な探求を可能にする。