generated at
リッチテキストを用いた画像生成
プロンプトをリッチテキストで入力することで、色や量などをコントロールする
>プレーン : 花束に囲まれた猫
>リッチテキスト : 花束囲まれた(1)
>(1) : サングラスを掛けている

仕組み


このUI思いつかなかったなぁnomadoor
テキストベースのまま拡張しているのが素晴らしい

論文を斜め読みした感じ以下のようなワークフローのはず、、、
修飾される前のテキスト(プレーンテキスト)を元に一度画像を生成し、どのトークンが画像上のどの部分にどれだけ作用するのかの二次元マスク(トークンマップ)をそれぞれ作成
上記のトークンマップを元に対応したトークンに修飾されている要素でRegional Prompterのように画像を生成
(1ステップ目では干渉する画像を避けるためにプレーンテキストを使っているらしい)
2ステップ以降では以下手順でプロンプトを修正、加筆している
1. 注釈があれば注釈の文章に変更
2. フォントスタイルが変更されてのであれば "ここまでのプロンプト" in the style of "フォント名"にプロンプトを修正
フォント名はukioeやsyberpunk等
3. フォントに色が指定されているのであれば、 "色名" "ここまでのプロンプト"にプロンプトを修正
カラーコードであれば用意されている色の名前の中から一番近いものを使う
その他元となる画像と整合性を持つための手法がいくつかあるっぽい

ここまで書いてRegional Prompterに似た機能を見つけたのでリンクを一応貼っておきます