generated at
LLM
深層学習では実験利用データが2年ごとに100倍になっている
消費電力=コストは2年ごとに数十倍
Scalling lawが判明し、資源投入が加速
金で殴れば性能が上がる。なら金を出すだけでいい
スケールを超えると単語予測ではない能力が発現する 創発
分布外汎化能力
専門家の平均を超える
MMLUでGeminiが超えた
生成AIへの金の流入
活用
Stack overflowはアクセス半減
宿題お手伝いサービスCheggはユーザー流入7%減
Textbooks are All You Need
2030年に低品質テキストデータが枯渇
2040年に画像データが枯渇
人類絶滅のリスク

Transformerdecoderに似ている構造
翻訳先の文章生成のためにつくられた
目的関数は次のトークンの生成確率
次の単語の発生分布を近似する
GPT-4の学習トークン数は13T
データセットの前処理
これで結構変わるのではないかな?基素
地道で大変な作業
1文字が3トークンになってしまう
UTF-8のバイト列3つ
すべての言語の語彙を多様にもつLLMは難しい
数万語の語彙リストを事前に与えて作る
学習はGPUで律速する
A100クラスターはMetaが世界一、次点でTesla
パラメータ数の20倍のデータが必要
Chinchilla則

>@mnishi41: 東大松尾先生
>「LLM、黎明期なのでわからんことが多い。でもその時期から日本が活用・開発についていけている。”今回は”。」
>味わい深い。