MoE
TL;DR
> 同じ数のパラメータを持つモデルと比較して推論が高速になります
> すべてのエキスパートがメモリにロードされるため、高 VRAM が必要
> 微調整では多くの課題に直面しているが、MoE の命令調整に関する最近の研究は有望である
DeepSeek-R1によって再び注目を集めた技術…だがそもそも
GPT-4(初代)はMoEである可能性が指摘されていたりと、案外LLM分野でもそれなりに頻出している。
> - 個々の専門家として機能する単純なニューラルネットワーク
> - エキスパート間で入力が均等に分散されるように設計
> これらの実装例を参考に、まずは基本的な構造を理解し、その後必要に応じて機能を追加していくアプローチが推奨されます。
どうやら(非常にシンプルな実装の場合)タスクに応じた比率で専門家モデル同士を選択・マージし、その結果を出力することで精度を得る考え方のようだ

マージ、も厳密には違うようで重みつけして出力足し合わせる、が正解のようだ……(MoE何もわからない)

ふつうに勘違いしてたが、ゲーティングネットワークの所(ルーティングとか色々な呼ばれ方をする)は、「MoEで同じアーキテクチャに縛られるモデル(llm)ではない」
極論すれば「特定の単語(トークン)が来たらこっちのモデル」見たいなシンプルな仕組みでも良い、基本的にはシンプルな
TransFormerアーキテクチャの分類器を使うことが多いようだ
構造的に「学習済みモデル」をベースにしつつ「共用部」を学習対象外にしたLoraでチューニング→独立したLora適用専門家モデルを作る→ゲーティングネットワークを学習、とすればかなり省資源に学習できると思われる…(私の理解が間違ってなければ)
ゲーティングネットワークについては長くなってきたので別記事に分離