/work4ai/GLIGEN - Scrapbox Reader

generated at 2/14/2025, 2:59:17 AM
GLIGEN
https://gligen.github.io/
Demo : https://dev.hliu.cc/gligen_mirror1/
https://github.com/gligen/GLIGEN
https://www.marktechpost.com/2023/01/23/meet-gligen-an-ai-approach-that-extends-the-functionality-of-existing-pre-trained-text-to-image-diffusion-models-by-enabling-conditioning-on-grounding-inputs/GLIGENの紹介
>GLIGENとは、既存のテキストから画像を生成する拡散モデルに、追加的な入力モダリティ（例えば、画像や音声）を条件付けすることで、生成結果をより制御できるようにするAI手法です。
>GLIGENは、画像や音声などの入力モダリティを「grounding input」と呼びます。grounding inputは、テキスト入力と関連性が高く、生成される画像に影響を与えるものです。

GLIGEN : Open-Set Grounded Text-to-Image Generation
Grounded(接地)というのは、枠を指定したらそこに描いてくれるという意味かな？

Text Grounded T2I Generation (Bounding box)
nvidiaのeDiff-Iっぽい

Image Grounded T2I Generation (Bounding box)
Paint by Exampleと同じかな？

Grounded T2I Generation (Keypoints)
やりたかったやつううううう❗❗❗

Grounded Inpainting


モデルとかどうなっとるのか
学習済みdiffusion modelに基づいて、別のモデルを訓練してるっぽい
元のモデルは固定しつつ、
各々のtransformer blockにGated Self-Attention layerなるものを追加する
という感じなので、現状、使いたいモデルごとに専用のGLIGENのモデルを学習する必要がある？

#Microsoft