moondream2
comparisonModel | VQAv2 | GQA | TextVQA | POPE | TallyQA |
moondream1 | 74.7 | 57.9 | 35.6 | - | - |
moondream2 (latest) | 74.2 | 58.5 | 36.4 | (coming soon) | (coming soon) |
2025/1/9
ComfyUI実装
データとして使いやすく整形出力出来るからかllmに検出内容を渡すだけでより巨大なvlmみたいな動きをさせる事も出来るようだ(下記のプロダクトはほんとにMoonDreamの検出トークンを
QwQ-32B-Previewに渡してるだけでQwQをvlm化したみたいな事を実現してる)
基本的に日本語には対応していない…が、llmとして対話するよりもVisionデータの情報を取り出す用途に特化したモデルであるためどちらかというとバックエンドの画像認識ツールとして使うことのほうが多そうではある

そういう点で言うと上記の強い推論モデルに渡すデータを認識する目的で使うのはかなりありなのかも知れない