>Conceptual 12M (CC12M) は、視覚と言語の事前学習に使用することを目的とした、~1,200 万の画像とテキストのペアを含むデータセットです。
>これは、画像キャプションモデルの事前トレーニングとエンドツーエンドのトレーニングに広く使用されているデータセットである Conceptual Captions (CC3M) よりも大きく、はるかに多様な視覚概念のセットをカバーしています。