generated at
🦊拡散モデル

ツッコミ待ち
ざっくり
画像とその画像の説明文から、ランダムノイズを作る手段を学習させたAIモデル
逆の手順を踏むことでランダムノイズから元画像を推測することができる

順過程がちょっとだいぶ違うので説明してみるnomadoor
いや、改めて調べると間違ってるぞタンマ!
AIモデルを作る
🛫順過程
画像を用意
その画像にちょっとガウスノイズを追加したものを作る
さらにちょっとノイズを追加したものを作って、さらに……を、完全なノイズになるまで繰り返す
🛬逆過程
上で出来たノイズから、ちょっとずつノイズを取り除いて綺麗な画像にする
そのとき、なるべく最初の画像に近くなるようにAIを学習させる
これを何億枚という画像で行い、ノイズと画像に関係性を見つけ出す

推論 (画像生成)
🛬逆過程に適当なノイズを入れて画像を作ってもらう
このノイズの形だったら、ノイズを減らした画像はこんな感じじゃない?と予測してノイズを減らす
この作業のことをサンプリングといいます
次の🦊サンプリングの章でちょっと詳しく見ていきましょう
なので生成というより彫刻という表現のほうが分かりやすい、と説明している人もいた
ノイズとXの関係を学習させるというアイデアなので、画像に限った技術ではなく、音声生成などにも応用されている

whoあれ、これじゃあ完全にガチャじゃないですか?プロンプト入れるとこなくない?
学習時のノイズを取り除いたり足したりする部分と推論時のノイズを取り除くタイミングでCLIPによってトークン化されたプロンプトが利用されているはず


参考リンク