/work4ai/CogVLM - Scrapbox Reader

generated at 2/12/2025, 9:01:59 PM

CogVLM
https://github.com/THUDM/CogVLMTHUDM/CogVLM
https://arxiv.org/abs/2311.03079CogVLM: Visual Expert for Pretrained Language Models
http://36.103.203.44:7861/Demo
Vit(EVA2-CLIP-E)、MLPアダプタ、GPT-?、visual expert moduleからなるVLM
visual expert module
>言語モデルの各層でQKV行列とMLPを持ちます。これにより、入力に画像が含まれない場合、元の言語モデルと同じ振る舞いをします。
15億枚の画像
LAION-2B
COYO-700M
4000万枚の視覚グラウンディングデータ

#THUDM