>Rakudaは、日本語のトピックに関する日本語の自由形式の質問にどれだけうまく答えられたかに基づいた、日本語の大規模言語モデルのランキングです。
>簡単に説明すると、ランキングのAIアシスタントに40の自由形式の質問(rakuda-questions)に答えてもらう。そして、GPT-4にこれらの答えのペアを見せ、どちらのモデルがより良い答えを出したかを選択させる。GPT-4の選好に基づき、ベイズ法で各モデルの根本的なBradley-Terryの強さを推定する。Bradley-Terryの強さは、Eloスコアの最適版です。