Imagen
画像とそれのテキストを埋め込んだモデル
Imagen
テキストのみの大規模言語モデル
ImagenはText Conditioningにテキストのみの言語モデルを使っている
生成画像の方向性をコントロールする方法
Imagenはこちら
弱点
Guidanceを強くかけると
アライメントは向上するが、生成結果の品質が劣化する
原因も解決策も示されているがよくわからない

生成する画像の文脈?を決めるのが一番大変だから、最初は64×64の小さいものを作り、それを大きくする
64×64 → 256×256 → 1024 × 1024の部分
学習済言語モデル
BERT / T5 / CLIP のなかで
T5が一番良かった
DALL-E 2で難しい例もうまく描ける
e.g. 色とオブジェクトがちゃんとリンクしている / 文字がちゃんと生成される
GANがやる、元の画像を変化させるやつ?
e.g. 男の顔を女に / 表情を笑顔に
解像度を増やしていくときに追加で指示を与えればそのとおりになる
Limitation
プロンプトに"人"が入ると評価が低下する
アライメント税?
Social Impact