generated at
CC12M
https://github.com/google-research-datasets/conceptual-12mgoogle-research-datasets/conceptual-12m
>Conceptual 12M (CC12M) は、視覚と言語の事前学習に使用することを目的とした、~1,200 万の画像とテキストのペアを含むデータセットです。
>これは、画像キャプションモデルの事前トレーニングとエンドツーエンドのトレーニングに広く使用されているデータセットである Conceptual Captions (CC3M) よりも大きく、はるかに多様な視覚概念のセットをカバーしています。