>@mi141: Any-to-Anyの生成を行う拡散モデルCoDiが出てますね。画像、動画、音、テキストから選んだ任意の組み合わせでX-to-Yという条件付き生成が可能です。
>大変面白く読んだのですが、関連研究の記述がしょぼ(げふんげふん)控えめなので、私の知る限りで多少補足してみました。
>@mi141: 今回のCoDiでは、それぞれのモーダル用の拡散モデルを一旦学習した後、マルチモーダル生成用のモジュールを追加で学習しています。このモジュールは、各モーダルでノイズ付きデータから特徴を抽出し、他モーダルでのデノイズに(attentionを介して)活用してもらうためのものです。
>@mi141: この設計が面白いですね。普通に考えると全てのモーダル組み合わせに対してモジュールを用意しそうなものですが、「他のどのモーダルでも使えるように特徴抽出する」ように学習することでモーダルの数だけで済んでいます(そもそも一部の組み合わせしか学習データがない)