generated at
2/17/2025, 8:19:07 AM
GPT-4oの性能評価の結果
https://openai.com/index/hello-gpt-4o/
テキスト評価
推理力の向上
GPT-4o
は、
DROP
をのぞく、
MMLU
、
GPQA
、
MATH
、
HumanEval
、
MGSM
で
SoTA
を記録した。
https://github.com/openai/simple-evals
自動音声認識の性能評価
音声
ASR
性能
GPT-4o
は、すべての言語、特に
低リソース言語
において、Whisper-v3に比べて音声認識性能を劇的に向上させた。
音声翻訳の性能評価
音声翻訳性能
GPT-4o
は、
CoVoST-2
という音声翻訳ベンチマークにおいて、新たな最先端を打ち立てた。
M3Exam
の
Zero-Shot
の結果
M3Exam
GPT-4o
はすべての言語において
GPT-4
より優れた。
画像認識の評価
視覚理解テスト
GPT-4o
は視覚認識ベンチマークで最先端の性能を達成。
Zero-Shot
で、
MMMU
、
MathVista
、
AI2D
、
ChartQA
、
DocVQA
、
ActivityNet
、
EgoSchema