LLMの学習コスト
実際
LLMの製作コストってどのくらいなんだろ

>How much does it cost to train a state-of-the-art foundational LLM?
>Facebook's 65B LLaMA trained for 21 days on 2048 Nvidia A100 GPUs. At $3.93/hr on GCP, that's a total of ~$4M.
>Google's 540B PaLM was trained on 6144 v4 TPUs for 1200hrs. At $3.22/hr is a total of ~$27M Deedy
4M$ ≒ 5.4億円
>基盤LLM学習にGCPでA100GPU 2048枚を21日間課金(536円/A100時)で約5.5億円。
>- 東京大学Aquarius(360枚x31.3円)
> R1のベースモデルであるDeepSeek-v3の事前学習のコストは~$5Mらしい。
> これにはパラメータ探索などのコストは含まれないが、それでも$数10Mほどの計算機コストで実現できたのではないか。
> これを考えると後発のプレイヤーでも高い目標と実現能力があればトップ競争に参入できる可能性が見える。
> 
2年経ってもそんなに変わっていない?

パラメータ数(モデルサイズ)がだいぶインフレしてるので上記の
meta-llama学習時点(2023前半)のコストが1Bにつき$61.1K、
DeepSeek V3(2024終盤)で$7.45Kとなるので下がっているとはいえるのかな(単純計算なので比較として正しいかは不明)

あと、mitやApache2.0 Licenseモデルが十分増えてきたのでそれらを素体にして育てる形ならかなりコストを抑えれるはず(ただフルスクラッチになるとやはり研究コストがかかるかと)