Diffusion Model
2023年10月12日
> @yuma_koizumi: 今月の音響学会誌に、@yatabe_ 先生と一緒に、拡散モデルの解説を寄稿しました。元々、「易しい解説」の予定だったので、理工系の学部生をターゲットにして書いています。理工系でない方も分かるよう、2章は数式を一切使わず説明してみました。ご笑覧ください。
> 
> @btreetaiji: 拡散モデルが話題ですが,拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました.
> 分布のサポートが低次元である場合は次元の呪いを回避し,Wasserstein距離の意味で最適レートを達成することも示しています.
>2015年に米Stanford UniversityのSohl-Dickstein氏らによって最初のモデルが提案されてから)しばらく注目されていなかった
>2020年に米University of California BerkeleyのJonathan Ho氏ら)によって
>ネットワークアーキテクチャや学習手法を工夫すれば他の深層生成モデルと同じ、もしくは上回る品質を達成できる
>デノイジングスコアマッチングなどとつながりがある
>ことが示され(本コラム 2020年9月号も参照)、再注目された。
>生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。
>特に2022年4月に米OpenAIから発表されたDALL·E 2は拡散モデルを使ってテキストからの画像生成をこれまでにない品質と多様性で実現した
>内部で2つの拡散モデル(テキストからCLIP画像埋め込みベクトル、CLIP画像埋め込みベクトルから画像)を組み合わせて使っている
実際にはテンソルらしい
>これまで難しかった動画生成も拡散モデルを使うことで実現できたと報告されている
似たようなデータしか生成しなくなる現象 が起きにくい
など
>VAEは代理的に用いているロス関数に依存しています。
>flowでは、逆変換を行えるモデル構造をしていなければいけません。
>Diffusion Modelは非平衡熱力学から発想を得ています。マルコフ連鎖を用いて各diffusion stepで少しずつ画像などの実データにランダムノイズを足していきます。モデルは反対にノイズから少しずつ実データに近づけていくように学習します。
>VAEやFlowとは異なり、学習はすべて固定されて行われ、偏在変数は元データと同じ分だけの大きさを持ちます。
>
確率的勾配Langevin動力学