/work4ai/リッチテキストを用いた画像生成

generated at 2/17/2025, 7:43:12 PM
リッチテキストを用いた画像生成
Project : https://rich-text-to-image.github.io/Expressive Text-to-Image Generation with Rich Text
Paper : https://arxiv.org/abs/2304.06720
GitHub : https://github.com/SongweiGe/rich-text-to-image
Demo : https://huggingface.co/spaces/songweig/rich-text-to-image
プロンプトをリッチテキストで入力することで、色や量などをコントロールする
>プレーン : 花束に囲まれた猫
>リッチテキスト  : 花束に囲まれた猫(1)
>(1) : サングラスを掛けている

仕組み
https://rich-text-to-image.github.io/video_assets/framework.mp4


このUI思いつかなかったなぁ
テキストベースのまま拡張しているのが素晴らしい

論文を斜め読みした感じ以下のようなワークフローのはず、、、
修飾される前のテキスト(プレーンテキスト)を元に一度画像を生成し、どのトークンが画像上のどの部分にどれだけ作用するのかの二次元マスク(トークンマップ)をそれぞれ作成
上記のトークンマップを元に対応したトークンに修飾されている要素でRegional Prompterのように画像を生成
(1ステップ目では干渉する画像を避けるためにプレーンテキストを使っているらしい)
2ステップ以降では以下手順でプロンプトを修正、加筆している
1. 注釈があれば注釈の文章に変更
2. フォントスタイルが変更されてのであれば  "ここまでのプロンプト" in the style of  "フォント名"にプロンプトを修正
フォント名はukioeやsyberpunk等
3. フォントに色が指定されているのであれば、 "色名" "ここまでのプロンプト"にプロンプトを修正
カラーコードであれば用意されている色の名前の中から一番近いものを使う
その他元となる画像と整合性を持つための手法がいくつかあるっぽい

ここまで書いてRegional Prompterに似た機能を見つけたのでリンクを一応貼っておきます
region specification by prompt