generated at
DiffusionによるText2Imageの系譜と生成画像が動き出すまで

>昨年から爆発的な流行を見せているAI画像生成について、網羅的かつ多角的なメタサーベイを執筆しました。
>核となる拡散モデルの基礎、一般層への浸透、浮き彫りとなった問題点、および加速度的に発展する手法群をまとめています。
>多分どこより情報量多いです。皆読んでね。
和文でこの情報量は目にしなかったから、いいな〜基素

📄目次
(あえて少し並べ替え&work4aiでの表記に変更している部分がありますnomadoor)
便利基素
文中リンクが結構あるけどクリックする方法がない?スライドの弱点?基素
PDFでダウンロードすれば見れますねnomadoor
webサービスとしてはどうなんだろうか…
目次読書助かるtakker
あなたは誰 ― p.2
最近Diffusionが熱い ― p.3
どんな方向けに書いたか ― pp.4-5
前書きに代えて ― p.6
00 前提知識
Transformer概観 ― p.13
01 Diffusion基礎
Diffusion Models(拡散モデル)って? ― p.15
改良型DDPM ― p.29
超解像への応用 ― p.30
生成品質がBIgGANを超えるまで ― pp.31-32
さらなる高解像度生成を目指して ― p.33
さらなるEnd2Endの条件付けを目指して ― p.34
02 Text2Imageの系譜
02-1 非Diffusionにおける研究界隈の動き
CLIPの登場 ― p.37
非DiffusionによるText2Image概観 ― p.38
02-2 Diffusionに基づく研究界隈の動き
Diffusionを用いたTxt2Image概観 ― p.40
拡散モデルの拡張技術
【パーソナライズ】― p.42
【画像編集】 ― p.43
【表現力】 ― p.44
【操作性・制御性】 ― p.45
【推論高速化】 ― p.46
DDPMの微分方程式化【基礎背景】 ― pp.206-215
DDIMの微分方程式化【基礎背景】 ― pp.216-217
既存のDiffusionのその先へ ― p.47
拡散モデルの包括的な解明に向けた考察
U-Netからの脱却
人手のフィードバックの利用
二値報酬推定に基づく整合性改善 ― pp.236-237
02-3 大衆化の動き
StableDiffusionから派生した画像生成サービス ― p.85
02-4 ゲームチェンジャーの出現
DeNAという企業名を背負ってこの辺り触れていくんだなー基素
DeNAと元素法典ってなにかあったんですか?takker
DeNAに限らず単純に企業名を出すと以下のような背景があるので引火リスクが高いという意味です基素
絵描きの中では現時点ではかなり感情的に扱われているトピック
特にこのあたりの話題は絵描きの権利的な懸念の感情をくすぐる可能性が強い
NSFWにも触れてる
これを推進している人=学んでいる人全てが敵とみなされうる
コンテンツに関わっているとさらに引火リスクがまします
たとえばpixivがこれを公開したら燃えるのでは?
NovelAIの為のシリーズ ― p.103
NovelAI 初心者教本 ― p.104
NovelAI Diffusion ― p.105
NovelAI Diffusionの苦手分野
02-5 絶えず技術は進歩していく
終わりなき開発螺旋 ― p.107
Anything 系列 ― pp.112-113
他モデル ― pp.114-116
制作ソフトウェア等にもAIが搭載されていく流れ ― p.117
モデルの独自開発 ― p.118
VTuberという媒体を通じて、倫理的によりクリーンなモデルの共創を目指す動きも ― p.119
大きなうねりを俯瞰し続けるために ― pp.120-121
AI画像生成の潮流は我々に何をもたらしたのか ― p.122
03 爆発的な普及による弊害と継承
著作権など権利関係の話 ― pp.124-126
訴訟問題への発展 ― p.127
Midjourneyによるコンペ受賞と反感 ― p.128
二分されるクリエイターの反応 ― p.129
NO TO AI GENERATED IMAGES
倫理と法はどこまで遵守されうるのか ― p.130
著作画像が無断で用いられないための枠組み作りに向けて ― p.131
04 そしてText2Video
Diffusionを用いたText2Video概観 ― p.133
まとめp.146


この分量をこの濃度で、さらに時流の流れまで掴んでまとめ上げる手腕…流石にため息しか出ないnomadoor