/work4ai/MMLU - Scrapbox Reader

generated at 2/14/2025, 2:59:11 AM

MMLU
https://arxiv.org/abs/2009.03300Measuring Massive Multitask Language Understanding

#LLMベンチマーク

Claude 3.5 Sonnetが 90.4%でGPT-4を越えている

現状トップはGPT-4
Steering at the Frontier: Extending the Power of Prompting - Microsoft Research
#Medprompt

https://www.youtube.com/watch?v=hVade_8H8mE
SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors