Hard Prompts Made Easy
実装
Stable Diffusion web UIで使う
これはなに?
画像をStable Diffusionの
プロンプトに変換したり、LLMタスクのハードプロンプトを学習したりすることができる
なぜHard Prompt?
人間に理解できる言葉(トークン)で書く
試行錯誤して見つけるしか無い
Hard Promptの優位性
汎用性がある
Textual Inversionは特化させすぎて、描く対象ごとに作らないといけない
Textual Inversionはモデルが変わったら使えない
MidjourneyやNovelAIのような、あんまり弄れない環境でも使える
特徴
過学習しない?
プロンプトの連結ができる
プロンプトの圧縮が可能
トークンの節約になる
同じスタイルの画像を複数枚与えると、スタイル要素をプロンプトとして表せる
HyperNetwork的な
課題点
Hard Promptとしての利点に編集できる、というのがあるのに人間が理解できないプロンプトになる可能性がある
もうすでに半分くらいよくわからない
現状CLIPを使っているので、入力する画像、出力するモデルともにCLIPを使っているものだと良い結果が出やすい?
元絵
$ [img2pez]
出力されたプロンプト
$ apples 🍂manga autumn [] shanmeng hye
ACertainModel / DPM++2M Karras / CFG 9 で生成
Nijijourney
プロンプトの意味全然わかんないのに出力がそれっぽいのすごい…すごくない?

呪文がますます呪文に…
絶対この機能使いやすい
元絵
$ teens rencesmoking aesthetic depicghoul cosplaying sawyer
上のプロンプトと一緒に書く
$ (1girl:1.2) teens rencesmoking aesthetic depicghoul cosplaying sawyer ( apples 🍂manga autumn [] shanmeng hye :0.9)
ちょっと調整してある
これを気軽にできるのがSoft Promptと違ってすごいところ
Anything v3.0