generated at
Zamba2-1.2B
>Zamba2-miniは、Gemma-2B(Google)、SmolLM-1.7B(Huggingface)、OpenELM-1.1B(Apple)、StableLM-1.6B(StabilityAI)、Phi-1.5(Microsoft)など、同規模以上のモデルと比較して、SOTA評価ベンチマークのパフォーマンスと優れた推論効率を実現します。
> Zamba2-miniは、Phi3-3.8Bと比較して、最初のトークンまでの時間を2倍短縮し、メモリオーバーヘッドを27%削減し、生成レイテンシを1.29倍短縮し、非常に推論効率が高いです。
>Zamba2-mini は、Zamba1-7B に対していくつかのアーキテクチャ上の改善を行っています。
>Mamba1 ブロックは Mamba2 ブロックに置き換えられました
>LoRAプロジェクターを共有アテンションとMLPブロックの両方に適用することで、ネットワークは共有レイヤーが深度を超えて呼び出されるたびに共有レイヤーを特殊化することができます
> 共有アテンションレイヤーにロータリーポジションの埋め込みを追加し、パフォーマンスがわずかに向上することがわかりました。

ライセンス