/work4ai/Chinchilla - Scrapbox Reader

generated at 2/12/2025, 11:05:21 PM
Chinchilla
https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-trainingAn empirical analysis of compute-optimal large language model training

https://www.marktechpost.com/2023/02/22/top-large-language-models-llms-in-2023-from-openai-google-ai-deepmind-anthropic-baidu-huawei-meta-ai-ai21-labs-lg-ai-research-and-nvidia/
>ChinchillaはGopherと同じ計算機予算を使い、700億のパラメータと4倍のデータを使うだけ。Gopher、GPT-3、Jurassic-1、Megatron-Turing NLGなどのモデルを、多くの下流評価タスクで凌駕しています。また、微調整や推論に使用する計算量が大幅に削減され、下流での利用が非常に容易になりました。


LLM