/work4ai/Hard Prompts Made Easy

generated at 2/14/2025, 2:56:00 AM
Hard Prompts Made Easy
https://github.com/YuxinWenRick/hard-prompts-made-easy
Paper : https://arxiv.org/abs/2302.03668Hard Prompts Made Easy
Demo : https://huggingface.co/spaces/tomg-group-umd/pez-dispenserhttps://colab.research.google.com/drive/1VSFps4siwASXDwhK_o29dKA9COvTnG8A?usp=sharing

実装
PEZ Dispenser
Stable Diffusion web UIで使う
Unprompted

これはなに？
Prompts made easy (PEZ) は、テキスト用の勾配最適化ツール(gradient optimizer)
画像をStable Diffusionのプロンプトに変換したり、LLMタスクのハードプロンプトを学習したりすることができる
現状職人技みたいになっているプロンプトエンジニアリングを助けてくれる

なぜHard Prompt?
Hard Promptというのは我々が書いている"1girl,high detailed"みたいなあれ
人間に理解できる言葉(トークン)で書く
試行錯誤して見つけるしか無い
対するSoft Promptもある
Textual Inversionとかのことかな？
Hard Promptの優位性
汎用性がある
Textual Inversionは特化させすぎて、描く対象ごとに作らないといけない
Textual Inversionはモデルが変わったら使えない
MidjourneyやNovelAIのような、あんまり弄れない環境でも使える

特徴
過学習しない?
プロンプトの連結ができる
Midjourneyのimage prompt的な
プロンプトの圧縮が可能
トークンの節約になる
同じスタイルの画像を複数枚与えると、スタイル要素をプロンプトとして表せる
HyperNetwork的な

課題点
Hard Promptとしての利点に編集できる、というのがあるのに人間が理解できないプロンプトになる可能性がある
もうすでに半分くらいよくわからない

現状CLIPを使っているので、入力する画像、出力するモデルともにCLIPを使っているものだと良い結果が出やすい？

Unpromptedで試す
元絵
$ [img2pez]
出力されたプロンプト
$ apples 🍂manga autumn [] shanmeng hye
ACertainModel / DPM++2M Karras / CFG 9 で生成
Nijijourney
プロンプトの意味全然わかんないのに出力がそれっぽいのすごい…すごくない？
呪文がますます呪文に…
すごい
絶対この機能使いやすい

Prompt Concatenation(プロンプトの連結)
元絵
$ teens rencesmoking aesthetic depicghoul cosplaying sawyer
上のプロンプトと一緒に書く
$ (1girl:1.2) teens rencesmoking aesthetic depicghoul cosplaying sawyer ( apples 🍂manga autumn [] shanmeng hye :0.9)
ちょっと調整してある
これを気軽にできるのがSoft Promptと違ってすごいところ
Anything v3.0

image2prompt