/work4ai/LLMの学習コスト

generated at 2/11/2025, 11:47:40 PM
LLMの学習コスト
from Foundry

実際LLMの製作コストってどのくらいなんだろ
>How much does it cost to train a state-of-the-art foundational LLM?
>
>$4M.
>
>Facebook's 65B LLaMA trained for 21 days on 2048 Nvidia A100 GPUs. At $3.93/hr on GCP, that's a total of ~$4M.
>
>Google's 540B PaLM was trained on 6144 v4 TPUs for 1200hrs. At $3.22/hr is a total of ~$27M Deedy
LLMの学習コスト
4M$ ≒ 5.4億円
>基盤LLM学習にGCPでA100GPU 2048枚を21日間課金（536円/A100時）で約5.5億円。
>
>研究用HPCのA100課金は一桁安く、仮に
>
>- 産総研ABCI（960枚x82.5円）
>- 東京大学Aquarius（360枚x31.3円）
>- 大阪大学SQUID（336枚x22.9円）
>
>の1656枚を26日間利用したら約6100万円。科研費基盤A全力を1ヶ月弱で消費。 Shinji Nishimoto

> Bilzard(@bilzrd)
> R1のベースモデルであるDeepSeek-v3の事前学習のコストは~$5Mらしい。
> 
> これにはパラメータ探索などのコストは含まれないが、それでも$数10Mほどの計算機コストで実現できたのではないか。
> 
> これを考えると後発のプレイヤーでも高い目標と実現能力があればトップ競争に参入できる可能性が見える。 
> 
2年経ってもそんなに変わっていない?
パラメータ数(モデルサイズ)がだいぶインフレしてるので上記のmeta-llama学習時点(2023前半)のコストが1Bにつき$61.1K、DeepSeek V3(2024終盤)で$7.45Kとなるので下がっているとはいえるのかな(単純計算なので比較として正しいかは不明)
あと、mitやApache2.0 Licenseモデルが十分増えてきたのでそれらを素体にして育てる形ならかなりコストを抑えれるはず(ただフルスクラッチになるとやはり研究コストがかかるかと)