generated at
モデルの扱えるトークン数の比較
context windowの長さを比較したい
トークン数
モデル名context windowの長さ備考
Gemini 1.5 Pro2000000
Gemini 1.51000000内部的には1000万まで達成しているらしい
claude 2.1, Claude 3 Opus, Claude 3.5 Sonneto1200000
GPT-4o, GPT-4 Turbo128000GPT-4oはtokenizerの改良で日本語が40%多く読めるようになった
DeepSeek-R164000

Source

Claude 3 Opusも200000でいいんだよね...?基素
>All Claude 3 models support vision and 200,000 token context windows.

今って、どれぐらいの情報を一度に扱えるんだっけ?基素
GPT-4 Turboが128000token
Gemini 1.5が100万token
こっちは動画も扱える
>1 時間の動画、11 時間の音声、30,000 行以上のコードベース、70 万以上の単語など、膨大な量の情報を一度に処理することが可能となります。
内部的には1000万tokenできているらしいから、そうすると30万行のコードベースか
後2桁増やして10000万tokenぐらいになると、多くのサービスのコードがまるまる入れられそう
複雑なChromiumのコードは4000万行あるからこれでもまるまるは無理
一時みんなコンテキスト長ばっかり競ってたけど最近あんまり注目されなくなったなnomadoor
Claude 2.1が200k
ただしハルシネーションがひどいという研究がどっかにあった気がする
それだと実用できないな基素
無限の我らがRWKV
よく分かっていないけど、何でも無限にできるらしいStreamingLLM
奇しくも2月14日に1MトークンでハルシネーションなしLLMが出ていた
LLMじゃないなこれ、しっかり論文読みます

重みの公開されてるモデルだと、DeepSeek V3/DeepSeek-R112800064000らしい…?で割と標準的。Qwen2.5-1Mとか言う脅威の1M(1,000,000)トークンのモデルも出た(ただし1M扱うにはメモリが7Bモデルでも120GBも必要になる…)morisoba65536