などの画像からテキストを抽出する視覚言語モデル

VLMが純粋なVisionモデルに対して有利な点として「物体同士の位置関係などの空間把握能力がつく」「ゼロショットで学習可能(プロンプトに追従し)で、訓練データにない物体を認識できる」「状況把握が可能になる」等のメリットがあり、小型の分類機として使うにも有効なようだ。

この用途を主軸に考えるとvlmはなるべくシンプルに小型なモデルであることを是となるようだ