/evergreens/2024年4月にアップデートした、GPT-4 Turboの実力

generated at 2/17/2025, 8:03:55 AM
2024年4月にアップデートした、GPT-4 Turboの実力
OpenAIとChatbot Arenaの結果を2つ紹介する。

結論
gpt-4-turbo-2024-04-09が、Claude3 Opusと同じか、それより少し性能が良い結果となった。
前回のAPI versionと比較して、特に推論能力が大幅に強化されている。
ChatGPT有料版はすでにこのアップデートが反映されている


感じたこと
ほとんどの処理は、ChatGPTの有料版を使えば合格点と言える。
一部の特殊なケースでは、引き続きClaude3を使用するのが良さそう。
長文処理が必要なタスク(論文翻訳や要約) 
(Chatbot ArenaではClaude3 Opusが首位)
より自然な日本語が必要なタスク
生成速度が気になるほど、急いでいるタスク


OpenAIの実験結果
https://github.com/openai/simple-evals

Evals
MMLU (汎用的な問題)
MATH (高度な推論)
GPQA (高度な推論)
DROP (読解力 & 推論)
MGSM (推論)
HumanEval (コード)

結果
https://github.com/openai/simple-evals?tab=readme-ov-file#benchmark-results

前回のAPI(gpt-4-0125-preview)との比較
https://twitter.com/OpenAI/status/1778574613813006610
gpt-4-turbo-2024-04-09が、ほぼ全てのタスクで、前回を上回る結果に。
推論能力が大幅に強化されたといえる
特に、GPQA(大学院レベルの激ムズデータセット)のスコアが、顕著に上昇
Knowledge cutoffも2023年12月となり、MMLU/DROPなどのスコア改善に寄与しているか。
HumanEval(コーディング)だけ若干下がっているが、軽微と考えられる。


Claude3 Opusとの比較
上2つが今回の実験結果 
emptyは、system messageが空
lmsysは、以下のFastChatで設定されたsystem message
https://github.com/lm-sys/FastChat/blob/7899355ebe32117fdae83985cf8ee476d2f4243f/fastchat/conversation.py#L894
一番下は、Claude3の紹介で報告された数値

4/6のタスク(GPQA (高度な推論)と MGSM (推論)を除く)で、GPT-4 Turboに軍配が。
明確にClaude3 Opusより優れている！とはなかなか言えない結果で、同じかやや性能がいいくらいという認識で良いだろう。


Gemini 1.5 Proとの比較

Gemini 1.5 Pro テクニカルレポートで報告された数値との比較
gpt-4-turbo-2024-04-09が、4/5のタスクで上回る結果に。


Chatbot Arenaでの結果
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard


総合評価では、gpt-4-turbo-2024-04-09が、Arena Eloレーティングで首位を獲得
2位がClaude3 Opus

長いクエリでは、Claude3 Opusが首位 (2位と僅差だが)