generated at
2/12/2025, 7:03:32 PM
RLHF
Reinforcement Learning with Human Feedback
人間によるフィードバック
ありの
強化学習
ChatGPT
はこれを使っている?
のもとになったと言われている
InstructGPT
では使われている
/work4ai/雑に読む 「ChatGPT 人間のフィードバックから強化学習した対話AI」