generated at
G-Eval
GPT-4を使用した、参照不要のプロンプトベースの評価指標
OpenAI公式による記事で、最も推奨された手法


概要
従来の要約の ROUGEBLEUScoreのようなメトリクスは、参照と比較して計測するが、人間の判断との相関が比較的低いという課題があった。
LLMによる評価もまた、人間との一致度が低いままであった。
そこで、CoT (Chain-of-Thought)を用いて、NLG出力の品質を評価するためのフレームワークであるG-Evalが考案された

G-Evalは参照なしのため、入力プロンプトとテキストだけに基づいて生成されたコンテンツの品質を評価でき、他の指標と比較して人間との一致度が一番高い結果となった。

4つの基準に基づいて、1-5のスコアを出させる:
Relevance (関連性):要約が重要な情報のみを含み、余分なものを排除しているかを評価。
Conherence (論理的で、ぶれない):要約の論理的な流れと構成を評価。
Consistency (安定した、いつも変わらない):要約が元の文書の事実と一致しているかを確認。
Fluency (流暢さ):要約の文法と可読性を評価。

これらの各基準に対して、元の文書と要約を入力とし、CoT (Chain-of-Thought)を活用して、モデルに各基準に対して1〜5の数値スコアを出力させるようなプロンプトを作成する。
定義されたプロンプトでスコアを生成し、要約間で比較する。

このデモンストレーションでは、gpt-4が各メトリックに対して離散的なスコア(1〜5)を生成する直接的なスコアリング機能を使用しています。スコアを正規化し、加重和を取ることで、より堅牢で連続的なスコアを得ることができ、要約の品質と多様性をよりよく反映することができます。

LLM as a Judge 論文の通り、Position biasに注意。A-B, B-Aと順序を変えて評価する。


ChainForgeを使った実装