generated at
moondream2
comparison
ModelVQAv2GQATextVQAPOPETallyQA
moondream174.757.935.6--
moondream2 (latest)74.258.536.4(coming soon)(coming soon)

2025/1/9
https://moondream.ai/blog/introducing-a-new-moondream-1-9b-and-gpu-supportMoondream 2025-01-09 Release: Structured Text, Enhanced OCR, Gaze Detection
ComfyUI実装
データとして使いやすく整形出力出来るからかllmに検出内容を渡すだけでより巨大なvlmみたいな動きをさせる事も出来るようだ(下記のプロダクトはほんとにMoonDreamの検出トークンをQwQ-32B-Previewに渡してるだけでQwQをvlm化したみたいな事を実現してる)
基本的に日本語には対応していない…が、llmとして対話するよりもVisionデータの情報を取り出す用途に特化したモデルであるためどちらかというとバックエンドの画像認識ツールとして使うことのほうが多そうではあるmorisoba65536
そういう点で言うと上記の強い推論モデルに渡すデータを認識する目的で使うのはかなりありなのかも知れない