generated at
Wildchat

WildChatは、実際のユーザーとChatGPTとの間で行われた約100万件の会話記録を集めたデータセット。


このデータセットは、ユーザーがChatGPTやGPT-4に無料でアクセスできる代わりに、チャット履歴の収集に同意することで作成された。
これにより、多様な言語やユーザープロンプト、さらには潜在的に有害なケースを含む豊富なデータが収集された。



10%以上の会話にトキシックなコンテンツが含まれていた。
会話AIのセーフティやバイアスの問題の深刻さが浮き彫りに


公式

論文
ChatGPTを実際にどのようにユーザーが使っているかは不明。
そこで、100万人のユーザーから250万以上の対話を収集し、データセット化した。
その結果、多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有害なユースケースを最も豊富に提示することがわかった。

参考資料