/work4ai/🦊image2prompt - Scrapbox Reader

generated at 2/12/2025, 6:27:48 PM
🦊image2prompt
🏠/🦊雑に学ぶComfyUI


image2promptは、画像からそれを生成するためのテキストプロンプトをAIに予想してもらうものです
そのプロンプトを入れたところで全く同じ画像ができることはまず無いですが、参考にしたり自動化にしたりと使う場面は少なくありません
CLIP Interrogatorから始まり、WD14-tagger、最近はGPT-4VのようなMLLMにキャプションを書かせる方法もあります


🔖WD14-tagger → WD-tagger-v3
WD14-taggerの後継であるWD-tagger-v3が出たのでそちらを紹介します
🪢カスタムノード
https://github.com/pythongosssss/ComfyUI-WD14-TaggerComfyUI WD 1.4 Tagger
WD-tagger-v3.json
WD14-tagger.json
WD14-taggerはDanbooruタグで学習されているため、アニメ絵や版権にめっぽう強い一方、写真や風景の描写はめちゃめちゃ弱いです
WD-tagger-v3は大幅に知識が増えましたが、長所と短所はWD14-taggerからあまり変わっていません


😚Joytag
WD14-taggerの強さを持ちつつ、汎用性を持たせた視覚モデルです
🪢カスタムノード
https://github.com/gokayfem/ComfyUI_VLM_nodesComfyUI VLM nodes
とてもおすすめ


👁️VLM
上に挙げたものは"画像"と"タグ"を一対一対応させたもので、いわば「タグ付け職人」です
対して以下のVLM/MLLMのベースはLLM、つまりChatGPTのようにテキストで対話したり調べ事をしてもらうものです
LLMに目をつけて、画像や動画もプロンプトとして使えるようにしたのがVLM/MLLMです
LLMがベースなので、例えば"画像の中に人は何人いる?"という質問もできたりしますが、ここでは"詳細なキャプションをつけて"と聞くことで、キャプション生成器として使ってみましょう

Florence2
🪢カスタムノード
https://github.com/kijai/ComfyUI-Florence2ComfyUI-Florence2

JoyCaption
🪢カスタムノード
https://github.com/aidenli/ComfyUI_NYJYComfyUI_NYJY

🚨日々たくさんのVLMが出ており、ここで紹介されているものがベストということは全くありません


🤝JoyTagとVLMを組み合わせる
cf. JoyTagで出力したタグをMLLMで編集する


🦾プロンプトとして使ってみる
WD14-tagger-text2image.json
🟥positive側のCLIPTextEncodeノードを右クリック →  Convert text to input 
🟩WD14Tagger|pysssssの出力をつなぎます


各種MLLM / VLM
参考に各社のMLLMをComfyUIで使うカスタムノードを置いておきます
GPT-4V
https://github.com/M1kep/ComfyUI-KepOpenAIM1kep/ComfyUI-KepOpenAI
Gemini
https://github.com/ZHO-ZHO-ZHO/ComfyUI-GeminiZHO-ZHO-ZHO/ComfyUI-Gemini
moondream2 (ローカル)
Comfyui image2prompt / ComfyUI VLM nodes
InternLM-XComposer2-VL (ローカル)
Comfyui image2prompt
BakLLaVA/LLaVA-1.6 /llava-v1.6-mistral-7b etc. (ローカル)
ComfyUI VLM nodes
deepseek-vl-1.3b-chat/deepseek-vl-7b-chat (ローカル)
Comfyui image2prompt

(Archive)🦊image2prompt