generated at
Mamba
Self-Attentionメカニズム(Transformer)は入力の長さに対して二次元的にスケーリングする、や有限のウィンドウ外の情報をモデル化できないという欠点がある
それに対して出てきたSSM(H3とかHyena)はシーケンスモデリングにおいて、線形時間の計算量で動作するという利点を持っている
しかし、入力の内容に基づいて情報を選択的に伝播する能力に欠ける
>Mambaは、SSMのパラメータの一部を入力に依存する関数として定義することで、SSMの欠点を解決することを目指しています。
https://qiita.com/peony_snow/items/649ecb307cd3b5c10aa7【Mamba】Transformerを凌駕しうるアーキテクチャを徹底解説(ソースコードあり) #Python - Qiita