generated at
2/12/2025, 10:18:55 PM
どの量子化がいいのか
https://arxiv.org/abs/2212.09720
The case for 4-bit precision: k-bit Inference Scaling Laws
16bitの30B vs 8bitの60B
ファイルサイズは同じ
8bitの60Bのほうが性能が高い
3bitまで下げると性能が落ちる
量子化