>Common Corpusは、2兆トークン(2,003,039,184,047トークン)で構成される、最大かつオープンで許容されるライセンステキストデータセットです。書籍、新聞、科学論文、政府および法律文書、コードなどで構成される多様なデータセットです。