generated at
CogVLM
Vit(EVA2-CLIP-E)、MLPアダプタ、GPT-?、visual expert moduleからなるVLM
visual expert module
>言語モデルの各層でQKV行列とMLPを持ちます。これにより、入力に画像が含まれない場合、元の言語モデルと同じ振る舞いをします。
15億枚の画像
4000万枚の視覚グラウンディングデータ