Wildchat
WildChatは、実際のユーザーとChatGPTとの間で行われた約100万件の会話記録を集めたデータセット。
このデータセットは、ユーザーがChatGPTやGPT-4に無料でアクセスできる代わりに、チャット履歴の収集に同意することで作成された。
これにより、多様な言語やユーザープロンプト、さらには潜在的に有害なケースを含む豊富なデータが収集された。
10%以上の会話にトキシックなコンテンツが含まれていた。
会話AIのセーフティやバイアスの問題の深刻さが浮き彫りに
公式
論文
ChatGPTを実際にどのようにユーザーが使っているかは不明。
そこで、100万人のユーザーから250万以上の対話を収集し、データセット化した。
その結果、多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有害なユースケースを最も豊富に提示することがわかった。
参考資料