generated at
Claudeのプロンプト評価とテストケース生成


感じたこと
プロンプトの作成から、テストケースの作成、評価まで爆速になった。
人間が細かいことを考える必要はない。
裏側でClaude 3.5 Sonnetが動いてくれる。
すごい体験だ...

この動画がわかりやすい


概要
AI駆動のアプリケーションを構築する際、プロンプトの品質が結果に大きな影響を与えます。しかし、高品質なプロンプトを作成することは困難であり、アプリケーションのニーズに関する深い知識と大規模言語モデルに関する専門知識が必要です。開発を加速し、結果を向上させるために、ユーザーがより簡単に高品質なプロンプトを生成できるようにこのプロセスを合理化しました。

現在、Anthropic Consoleでプロンプトの生成、テスト、評価が可能になりました。自動テストケースの生成や出力の比較など、新機能を追加し、ユーザーのニーズに最適な応答を生成するためにClaudeを活用できるようになりました。


プロンプトの生成
優れたプロンプトを書くことは、Claudeにタスクを説明するのと同じくらい簡単になりました。ConsoleにはClaude 3.5 Sonnetを搭載した組み込みのプロンプトジェネレーターがあり、タスク(例:「インバウンドのカスタマーサポートリクエストの振り分け」)を説明すると、Claudeが高品質なプロンプトを生成します。



Claudeの新しいテストケース生成機能を使用して、プロンプトの入力変数(例えば、インバウンドのカスタマーサポートメッセージ)を生成し、プロンプトを実行してClaudeの応答を確認できます。あるいは、テストケースを手動で入力することもできます。



テストスイートの生成
実際の入力範囲に対してプロンプトをテストすることで、プロンプトを本番環境にデプロイする前に、その品質に自信を持つことができます。新しい評価機能により、スプレッドシートやコードでテストを手動管理する代わりに、直接Consoleで評価を行うことができます。

新しいテストケースを手動で追加するか、CSVからインポートするか、または「テストケースの生成」機能を使用してClaudeにテストケースを自動生成させることができます。必要に応じてテストケースを修正し、ワンクリックですべてのテストケースを実行します。各変数の生成要件に対するClaudeの理解を確認し、調整することで、Claudeが生成するテストケースをより細かく制御できます。



モデルの応答の評価とプロンプトの改善
プロンプトの改善にかかるステップが少なくなりました。プロンプトの新しいバージョンを作成し、テストスイートを再実行することで、素早く反復して結果を改善できるようになりました。また、2つ以上のプロンプトの出力を並べて比較する機能も追加しました。

さらに、主題の専門家に5段階で応答の品質を評価してもらい、変更によって応答の品質が向上したかどうかを確認することもできます。これらの機能により、モデルのパフォーマンスをより迅速かつアクセスしやすい方法で改善できます。