generated at
LLaVA
> マルチモーダル GPT-4 レベル機能を目指して構築された大規模な言語および視覚アシスタント
CLIP ViT/L-14Vicunaを接続する

Llama 2対応