generated at
GLIGEN
>GLIGENとは、既存のテキストから画像を生成する拡散モデルに、追加的な入力モダリティ(例えば、画像や音声)を条件付けすることで、生成結果をより制御できるようにするAI手法です。
>GLIGENは、画像や音声などの入力モダリティを「grounding input」と呼びます。grounding inputは、テキスト入力と関連性が高く、生成される画像に影響を与えるものです。

GLIGEN : Open-Set Grounded Text-to-Image Generation
Grounded(接地)というのは、枠を指定したらそこに描いてくれるという意味かな?

Text Grounded T2I Generation (Bounding box)
nvidiaのeDiff-Iっぽい

Image Grounded T2I Generation (Bounding box)
Paint by Exampleと同じかな?

Grounded T2I Generation (Keypoints)
やりたかったやつううううう❗❗❗nomadoor

Grounded Inpainting


モデルとかどうなっとるのか
学習済みdiffusion modelに基づいて、別のモデルを訓練してるっぽいmiyamonz
元のモデルは固定しつつ、
各々のtransformer blockにGated Self-Attention layerなるものを追加する
という感じなので、現状、使いたいモデルごとに専用のGLIGENのモデルを学習する必要がある?miyamonz