(StabilityAI)、Phi-1.5(Microsoft)など、同規模以上のモデルと比較して、SOTA評価ベンチマークのパフォーマンスと優れた推論効率を実現します。

と比較して、最初のトークンまでの時間を2倍短縮し、メモリオーバーヘッドを27%削減し、生成レイテンシを1.29倍短縮し、非常に推論効率が高いです。

 に対していくつかのアーキテクチャ上の改善を行っています。

 ブロックに置き換えられました

LoRAプロジェクターを共有アテンションとMLPブロックの両方に適用することで、ネットワークは共有レイヤーが深度を超えて呼び出されるたびに共有レイヤーを特殊化することができます

 共有アテンションレイヤーにロータリーポジションの埋め込みを追加し、パフォーマンスがわずかに向上することがわかりました。