generated at
InfiAgent-Dabench


データ分析タスクにおけるエージェントの評価を目的としたベンチマーク。
LLMベースのエージェントは、データ解析の質問と対応するCSVファイルを要求される。
エージェントは計画を立て、コードを書き、Pythonサンドボックスを呼び出し、ReActの方法で問題を解決します。
最終的な解答は特定のフォーマットに再フォーマットされ、閉形式のラベルと照合される。


DAEvalの構築

データ分析問題は、CSVファイルの記述と事前に定義されたキーコンセプトに基づいてGPT-4で生成される。
そして、正確な評価のために質問を閉形式にするための制約条件とフォーマット要件を生成する。
ラベルはOpenAI Advanced Data Analysisから取得。
これらはすべて、人間による厳密な評価とフィルタリングを受けている。


論文