>ChinchillaはGopherと同じ計算機予算を使い、700億のパラメータと4倍のデータを使うだけ。Gopher、GPT-3、Jurassic-1、Megatron-Turing NLGなどのモデルを、多くの下流評価タスクで凌駕しています。また、微調整や推論に使用する計算量が大幅に削減され、下流での利用が非常に容易になりました。