generated at
MMLU
大規模マルチタスク言語理解(Massive Multi-task Language Understanding)の略
数学・物理学・歴史・法律・医学・倫理など、57科目の組み合わせで知識や問題解決能力を測るテスト
高校や大学レベルの問題を含む4択形式

MMLUを解かせることで、人間の知能と比較することができる
平均的な人間の評価者は34.5%で、専門家集団の平均は89.8%と推定されている


GPT-4 (Few-Shot)は、86.5%

Gemini Ultraは、90.6%を叩き出した。専門家を超えたと言っている。

MMMUというものもできた。