generated at
RLHF
Reinforcement Learning with Human Feedback

ChatGPTはこれを使っている?
のもとになったと言われているInstructGPTでは使われているnomadoor