視覚的コンテキストにおける数学的推論能力

を評価した激むずベンチマーク

多様な数学的タスクと視覚的タスクの課題を組み合わせるように設計されている。

6141の例題から構成され、数学に関する既存の28のマルチモーダルデータセットと、新たに作成された3つのデータセット（IQTest、FunctionQA、PaperQA）から作成されている。

これらのタスクをこなすには、きめ細かく深い視覚的理解と構成的推論が必要

が人間の平均スコアを上回った。(63.8 vs 60.3)