generated at
要約タスクをどう評価するか?

データセット
日本語のタスクで要約タスクを扱っているのは

評価指標
OpenAIが公式ブログに、要約タスクの評価方法について、発表している
G-Evalを使った評価が2024年1月の現状最も精度が高い
ROUGEBERTScoreなどの従来の自動評価指標は具体的だが、実際の要約の品質と必ずしも相関しないため
参照が不要で、GPT-4を使った自動評価


評価基盤テンプレート
G-Evalを、ChainForgeで実装した評価基盤テンプレート


詳細解説記事


参考