IP-Adapter
2つの要素で構成される
reference画像の画像特徴量を抽出するための画像エンコーダ(
CLIP)
テキスト特徴量と画像特徴量を完全に分離している
ControlNetと同じように同じベースモデルを使っているモデルに対しては同じIP-Adapterを使える
顔に特化したip-adapter
ip-adapter-plus-faceの改良版
画像よりもプロンプトに忠実に
>CLIP画像埋め込みに代えて顔認識モデルからの顔ID埋め込みを用い、さらにLoRAを用いてIDの一貫性を向上させている。
顔の構造をCLIPが担当、ID?をInsightFaceが担当するようにした
これは流行る(確信)

コードとモデルの配布が待ち遠しい

めちゃめちゃすぐ来た
