generated at
2/12/2025, 9:01:59 PM
CogVLM
https://github.com/THUDM/CogVLM
THUDM/CogVLM
https://arxiv.org/abs/2311.03079
CogVLM: Visual Expert for Pretrained Language Models
http://36.103.203.44:7861/
Demo
Vit(
EVA2-CLIP-E
)、MLPアダプタ、GPT-?、
visual expert module
からなる
VLM
visual expert module
>
言語モデルの各層でQKV行列とMLPを持ちます。これにより、入力に画像が含まれない場合、元の言語モデルと同じ振る舞いをします。
15億枚の画像
LAION-2B
COYO-700M
4000万枚の視覚グラウンディングデータ
#THUDM