2024年4月にアップデートした、GPT-4 Turboの実力
OpenAIとChatbot Arenaの結果を2つ紹介する。
結論
前回のAPI versionと比較して、特に推論能力が大幅に強化されている。
ChatGPT有料版はすでにこのアップデートが反映されている
感じたこと
ほとんどの処理は、ChatGPTの有料版を使えば合格点と言える。
一部の特殊なケースでは、引き続き
Claude3を使用するのが良さそう。
長文処理が必要なタスク(論文翻訳や要約)
より自然な日本語が必要なタスク
生成速度が気になるほど、急いでいるタスク
OpenAIの実験結果
Evals
結果
前回のAPI(gpt-4-0125-preview)との比較
gpt-4-turbo-2024-04-09が、ほぼ全てのタスクで、前回を上回る結果に。
推論能力が大幅に強化されたといえる
特に、
GPQA(大学院レベルの激ムズデータセット)のスコアが、顕著に上昇
Knowledge cutoffも2023年12月となり、
MMLU/
DROPなどのスコア改善に寄与しているか。
上2つが今回の実験結果
emptyは、system messageが空
lmsysは、以下のFastChatで設定されたsystem message
明確に
Claude3 Opusより優れている!とはなかなか言えない結果で、同じかやや性能がいいくらいという認識で良いだろう。
gpt-4-turbo-2024-04-09が、4/5のタスクで上回る結果に。
Chatbot Arenaでの結果
総合評価では、gpt-4-turbo-2024-04-09が、Arena Eloレーティングで首位を獲得