Chatbot Arena
>このデータセットには、2023年4月から6月にかけてChatbot Arenaで収集された、対になる人間の好みを含む33Kのクリーンな会話が含まれています。
このメンツで
RWKVかなり上位なの面白い

1週目
仕組み
データ収集
ユーザーは2つの匿名モデルと並んでチャット
より優れていると思われるモデルに投票
投票が提出されると、モデル名が明らかにされる
→ チャットを続けるor別のモデルの組み合わせでリスタート
収集結果(1週目)
モデルの組み合わせの戦闘回数
ユーザーが使っていた言語
ほぼ英語
Elo rating
ペアワイズ法を使った勝率(左)とElo ratingを使ったペアワイズ勝率(右)の比較
スタイル文章の書き方や見た目(例えば、長さやマークダウンの使い方)がランキングにおいてどれだけ影響を及ぼしているのか調べる
mmluとかよりも人間の評価がやっぱり分かりやすいし腑に落ちる

日本語(にかかわらず他言語)の投票も増やして言語による評価の違いも知りたい