generated at
2/14/2025, 3:03:34 AM
VLM
VLMs
vision language model
CLIP
などの画像からテキストを抽出する視覚言語モデル
https://github.com/gokayfem/Awesome-VLM-Architectures
gokayfem
/Awesome-VLM-Architectures
VLMが純粋なVisionモデルに対して有利な点として「物体同士の位置関係などの空間把握能力がつく」「ゼロショットで学習可能(プロンプトに追従し)で、訓練データにない物体を認識できる」「状況把握が可能になる」等のメリットがあり、小型の分類機として使うにも有効なようだ。
この用途を主軸に考えるとvlmはなるべくシンプルに小型なモデルであることを是となるようだ
もしかして:
vllm