/evergreens/MMLU - Scrapbox Reader

generated at 2/15/2025, 3:10:29 PM

MMLU
大規模マルチタスク言語理解(Massive Multi-task Language Understanding)の略
数学・物理学・歴史・法律・医学・倫理など、57科目の組み合わせで知識や問題解決能力を測るテスト
高校や大学レベルの問題を含む4択形式

MMLUを解かせることで、人間の知能と比較することができる
平均的な人間の評価者は34.5%で、専門家集団の平均は89.8%と推定されている


https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
GPT-4 (Few-Shot)は、86.5%

Gemini Ultraは、90.6%を叩き出した。専門家を超えたと言っている。
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

MMMUというものもできた。