英語は日本語の2倍GPT3に文脈情報を渡せる
ChatGPTに「これを参考にして返事して」と文脈情報を渡す場合、英語にして渡す方が2倍渡せる
DeepL-ed
GPT3, there are often cases where a single Japanese character is chopped into bytes in the tokenizer layer. Input/output in Japanese is short in terms of characters but long in terms of tokens.
これは結構厄介では
つまり、今まで漢字を使う中国人や日本人はアルファベットを使う人たちに比べて情報の密度が高かった
同じ内容を日本語で書くのと英語で書くのでは英語の方が2倍面積を取っていた
人間の物理的視野の広さは人種によって大差ないので、日本人は一度に目からインプットできる情報量が2倍大きい
しかし、
AIの視点で見ると、同じ内容を日本語と英語で与えた場合に日本語の方が英語の2倍ほどのトークンになる
人間の物理的視野のようなもの
日本語で書かれたものの方が一度に見れる量が少ない
ChatGPTに「これを参考にして返事して」と文脈情報を渡す場合、英語にして渡す方が2倍渡せるということ、この差はでかい
料金が高くなるというのをみたけど一度に渡せる情報量も変わるのか〜

というかトークン数が増えるからお金もかかるってことだ
分かち書き対応がいる?

トークナイザーの出力するトークンが変わると以降の学習が全滅する気が…

トークナイザーの出力は一般的には
ワンホットベクトルでニューラルネットに入れるのでトークナイザーの出力するトークン数が変わるとネットワークのサイズも比例して変わるんよ
トークナイザーの変化を追加学習で吸収できるのかな…やってやれないことはなさそうな気がしてきたから全体再学習とはならなさそう
要するに埋め込まれた後のデンスなベクトルが同じものになるように学習すればいいわけだからそこだけ切り離して学習できるか??
いや、ダメだな、OpenAI側がベクトルを受け取るAPIを提供してくれないとこっちでどうこうできないな
別の場所での質問を見て、上記の質問を正しく理解してなかったかもと気づいた

「information」で1トークンになってるところが見所
元が何バイトであっても1トークンにすることには支障ない
ではなぜ「情」を構成する3バイトが2トークンに刻まれているのか
「情」の出現頻度は「information」の出現頻度よりはるかに低いので1つのトークンにする価値はない、とGPT3のトークナイザーが判断してしまっている状態
トークンは全部で50000種類程度
増やすことは技術的には問題ないが、増やした分だけ学習コストが掛かる
経済的理由により日本語とかいうマイノリティ言語に割くリソースが少ないという話
>もしかしたら gpt-3.5-turbo は日本語の消費トークン数に改善が入っている?
>「おおきに!ぼちぼちやでぇ。貴様はどないや?」に対するトークン数がOpenAIのサイトで計算すると39なんだけど、API利用での消費は29で返ってくる。completionのtext-davinci-003でも39。
30%ぐらい少なくなった
嬉しい方向の変化だけど、モデルによってトークン数が異なるとなると見積もりが混乱するなぁw
