generated at
Molmo
オープンソースのVLM

データの質に強く焦点を当て、1M(100万)未満の画像とテキストのペアで強力なモデルを訓練
多くの競合アプローチに比べて、データ量が3桁も少ない
既存のVLMを使った蒸留は行わない