Stable diffusionのimg2imgを試す
2022-08-31
2022-08-28
画像プロンプトを試す
元データは文字を書いただけの256×256の画像、テキストプロンプトとしては「black cats」と指定
strength=0.75(default)
0.5
0.2
あ、これテキストプロンプトの側の強さなのね、勘違いしてた
0.99
0.9
0.8
0.85
0.88
0.87
$ time python scripts/img2img.py --prompt "black cats" --init-img c.png --ckpt sd-v1-4.ckpt --strength 0.87 --n_sample=1
real 0m32.746s
user 0m24.091s
sys 0m5.784s
$ for i in {1..10} ; do python scripts/img2img.py --prompt "black cats" --init-img c.png --ckpt sd-v1-4.ckpt --strength 0.87 --n_sample=1 --seed ${i}; done
どれか選ぶならこれだが期待してたものとはだいぶ違うな…
ラフな指示を描いてみる
悪化してないか??
うーん、これはおそらく僕のラフの指示を「猫の配置に関する指示だ」とは理解せず「なんかゴチャゴチャしててこの辺が黒い」みたいな理解をしてるな
2022-08-31
多分"black cats"だけだと猫要素が足りない
もっとポーズとか指定してみる?
2匹いるならそれも指定するとか
あとにじむ?ペンじゃなくて一番固いやつでいいと思う
描き直した!
(複数の条件を同時に変えててなんだが)画像サイズは512にした
--prompt "black cats" --strength 0.88
いいじゃん!
ちょっと意図が伝わってなかったのでラフを修正してみる
えー、なぜ。思い込みが激しいw
こんな時はシードを変えてリロールしてみよう
3枚目、なるほどなー。僕は適当にボールか何かのつもりで色を変えたのだがAIは「猫のそばにある水色のものはきっと魚だろう」と解釈したというわけか。いいね。ではプロンプトにfishも入れよう。
初期化に20秒、処理に1枚あたり30秒という感じ
前回「悪化した」と思ったこの画像プロンプトを512にして再度試す
前回よりだいぶ良い結果。
どうやら画像の塗りとかプロンプトの充実度ではなく、画像サイズが小さいのが問題の原因のようだ
一度生成した画像の一部をマスクして再生成する実験
0.8
0.9
0.5 これだとノイズのマスクが残ってしまう
0.7
img2imgのプロンプトを変える実験
左の入力を入れて右の出力が出たという話をしていて「猫は指定したんですよね?」と質問があった
正確に言えば画像の他にプロンプト"black cat"と乱数シードと、テキストと画像をどの程度で混ぜるかの値を指定している
プロンプトを別のものに変えてみる実験
black dog
black rabbit
無茶な指示をしてみる例
bicolor cat(2色の猫) 1匹の尻尾の先だけ白くなった
tabby cat(トラネコ) これも尻尾の先だけ縞模様になった