/work4ai/LoRA学習でのタグ付けTips

generated at 2/12/2025, 6:43:37 PM
LoRA学習でのタグ付けTips
参考
キャラクター学習のタグ付け一例
https://www.youtube.com/watch?v=etEo6Lf7QIcModeling The White Queen as a Stable Diffusion LoRA


キャプションとタグの違い
 , で区切られているのがタグ？
キャプションは文章

1. キャプション(タグ)の自動生成
BLIPやWD14-Taggerを使って教師画像にキャプションをつける
→ Kohya's GUIでLoRAの学習をする#63fbbc82e2dacc0000626c0f
例 : クオリアさん(/qualia-san/幸せは義務ではなく主観)
 
WD14-Tagger1girl, solo, long_hair, blush, smile, bangs, blue_eyes, animal_ears, hair_between_eyes, very_long_hair, closed_mouth, blue_hair, upper_body, outdoors, japanese_clothes, sky, cat_ears, kimono, animal_ear_fluff, fox_ears, night, looking_away, night_sky, christmas, gift, blue_kimono, gift_box, christmas_tree, christmas_ornaments, pine_tree

2. キャプション(タグ)ファイルの先頭に呼び出したい名称を書く
例 : qualia-san
先頭にqualia-sanqualia-san, 1girl, solo, long_hair, blush, smile, bangs, blue_eyes, animal_ears, hair_between_eyes, very_long_hair, closed_mouth, blue_hair, upper_body, outdoors, japanese_clothes, sky, cat_ears, kimono, animal_ear_fluff, fox_ears, night, looking_away, night_sky, christmas, gift, blue_kimono, gift_box, christmas_tree, christmas_ornaments, pine_tree

3. タグの剪定
タグは大きく分けて2つに分けられる
キャラクターを定義する言葉
qualia-sanlong_hair, bangs, animal_ears, hair_between_eyes, blue_eyes, blue_hair, cat_ears, animal_ear_fluff, fox_ears
それ以外
Not relevant1girl, solo,  blush, smile, animal_ears, very_long_hair, closed_mouth, upper_body, outdoors, japanese_clothes, sky, kimono, night, looking_away, night_sky, christmas, gift, blue_kimono, gift_box, christmas_tree, christmas_ornaments, pine_tree
例えば、ケモミミや青い髪はクオリアさんを説明するのに必須
逆にクリスマスツリーや着物は、状況によってあったりなかったりする
→ クオリアさんを説明するものではない
🚨キャラクターを定義する言葉をキャプション(タグ)ファイルから消す
ちょっと分かりづらいけれど、素材画像から余計なものを削ぎ落とした情報を qualia-san というトークンに集約させる

4. 完成
qualia-san Tagqualia-san, 1girl, solo, blush, smile, hair_between_eyes, very_long_hair, closed_mouth, upper_body, outdoors, japanese_clothes, sky, kimono, night, looking_away, night_sky, christmas, gift, blue_kimono, gift_box, christmas_tree, christmas_ornaments, pine_tree


本当に意味あるんですか…？

実験
学習設定
学習率はLAZY TRAINING GUIDEに倣う
learning rate & Unet learning rate : 0.00016
Text Encoder learning rate : 3e-5
ベースモデルはACertainModel
model-1 : WD14-tagger無編集
model-2 : WD14-tagger編集←今回やったこと
model-3 : 極少タグ
上の画像で言えば qualia-san, kimono, christmas_tree と、大きく目につくものだけを残す

出力比較
設定
モデルはACertainModel
プロンプトは qualia-san, 1girl,Highly Detailed,upper body<lora:qualia-san-model-1_v1.0:0.8> のみ
model-1 : WD14-tagger無編集
model-2 : WD14-tagger編集
model-3 : 極少タグ

自由度はあるのか？
左から model-1 / model-2 / model-3
$ qualia-san, 1girl,Highly Detailed,looking at viewer,upper body,from front,bangs,wide view ,chibi, full body, wearing kimono<lora:qualia-san-model-2_v1.0:0.7> /// model : ACertainModel
$ qualia-san, 1girl,Highly Detailed,photoreal,looking at viewer,upper body,red hair,headset,from front,bangs,wide view ,portrait, white dress <lora:qualia-san-model-3_v1.0:0.8> /// model : AOM2
$ qualia-san, 1girl,Highly Detailed,angry face,turn away,red hair,very short hair,from side,bangs,full body<lora:qualia-san-model-3_v1.0:0.8> /// model : unico

ちゃんと差が出ると思わなかった、面白い
model-1はクオリアさんの特徴を掴めてない
一番の特徴のケモミミすら忘れることがある
model-2とmodel-3は、教師画像の統一感が割りとあるのもあって違いが分かりにくいけれど、無理に編集させるとmodel-3は破綻しかかる