generated at
Imagen
GLIDE / DALL-E 2(unCLIP) / Stable Diffusion
CLIPを使って画像を生成する
画像とそれのテキストを埋め込んだモデル
Imagen
テキストのみの大規模言語モデル
画像生成はDiffusion Model
ImagenはText Conditioningにテキストのみの言語モデルを使っている
生成画像の方向性をコントロールする方法
Imagenはこちら
弱点
Guidanceを強くかけるとアライメントは向上するが、生成結果の品質が劣化する
原因も解決策も示されているがよくわからないnomadoor
生成する画像の文脈?を決めるのが一番大変だから、最初は64×64の小さいものを作り、それを大きくする
64×64 → 256×256 → 1024 × 1024の部分
学習済言語モデル
BERT / T5 / CLIP のなかでT5が一番良かった
他モデルのとの人間による比較(DrawBench)
DALL-E 2で難しい例もうまく描ける
e.g. 色とオブジェクトがちゃんとリンクしている / 文字がちゃんと生成される
面白い応用例 ドメイン変換のようなものができる
GANがやる、元の画像を変化させるやつ?
e.g. 男の顔を女に / 表情を笑顔に
Imagen#63c918ade2dacc0000a60e3aの通り、低解像度の元をだんだん高解像度にしていく
解像度を増やしていくときに追加で指示を与えればそのとおりになる
Limitation
プロンプトに"人"が入ると評価が低下する
アライメント税?
Social Impact
倫理的な問題からモデル・デモは公開しない
DeepFloyd IF「…」