generated at
Diffusion Model
2023年10月12日
> @yuma_koizumi: 今月の音響学会誌に、@yatabe_ 先生と一緒に、拡散モデルの解説を寄稿しました。元々、「易しい解説」の予定だったので、理工系の学部生をターゲットにして書いています。理工系でない方も分かるよう、2章は数式を一切使わず説明してみました。ご笑覧ください。
>


> @btreetaiji: 拡散モデルが話題ですが,拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました.
> 分布のサポートが低次元である場合は次元の呪いを回避し,Wasserstein距離の意味で最適レートを達成することも示しています.
>
> 主著は弊研究室M1の大古君です.
> @StatMLPapers: Diffusion Models are Minimax Optimal Distribution Estimators. (arXiv:2303.01861v1 http://stat.ML) https://ift.tt/9t8X7ci



>深層生成モデルの1つである拡散モデル(Diffusion Model)の利用が急速に広がっている
>2015年に米Stanford UniversityのSohl-Dickstein氏らによって最初のモデルが提案されてから)しばらく注目されていなかった
>2020年に米University of California BerkeleyのJonathan Ho氏ら)によって
>ネットワークアーキテクチャや学習手法を工夫すれば他の深層生成モデルと同じ、もしくは上回る品質を達成できる
>デノイジングスコアマッチングなどとつながりがある
>ことが示され(本コラム 2020年9月号も参照)、再注目された。
Diffusion Models Beat GANs on Image Synthesisも同じようなストーリー基素
>生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。
超解像自動着色画像修復、JPEG圧縮後修正
>特に2022年4月に米OpenAIから発表されたDALL·E 2は拡散モデルを使ってテキストからの画像生成をこれまでにない品質と多様性で実現した
>内部で2つの拡散モデル(テキストからCLIP画像埋め込みベクトル、CLIP画像埋め込みベクトルから画像)を組み合わせて使っている
実際にはテンソルらしい
>これまで難しかった動画生成も拡散モデルを使うことで実現できたと報告されている
訓練が安定しており、GAN で良く見られる問題が起きづらいhttps://ja.stateofaiguides.com/20220817-text2image-updates/
似たようなデータしか生成しなくなる現象 が起きにくい
など


>GANSOTAなモデルより高い精度を達成しています
>GAN敵対的学習の構造そのものに、学習の不安定さと多様性の欠如があります。
>VAEは代理的に用いているロス関数に依存しています。
>flowでは、逆変換を行えるモデル構造をしていなければいけません。
>Diffusion Modelは非平衡熱力学から発想を得ています。マルコフ連鎖を用いて各diffusion stepで少しずつ画像などの実データにランダムノイズを足していきます。モデルは反対にノイズから少しずつ実データに近づけていくように学習します。
>VAEやFlowとは異なり、学習はすべて固定されて行われ、偏在変数は元データと同じ分だけの大きさを持ちます。
>
確率的勾配Langevin動力学

VAEの仲間