generated at
llama.cpp
>主な目的は、MacBookで4ビット量子化を使ってモデルを実行することです
> 依存性のないプレーンなC/C++の実装
> Apple silicon first-class citizen - Arm Neon と Accelerate フレームワークによって最適化されています。
> x86アーキテクチャのAVX2サポート
> F16/F32の混合精度
> 4ビット量子化対応
>CPU上で動作する

対応UI