generated at
2/12/2025, 11:37:52 PM
強化学習
エージェント: 行動する主体
環境に対して行動を選択
報酬を受け取って行動を改善する
環境 : エージェントが行動を取る対象
エージェントが取った行動に応じて状態と報酬を与える
全体が観測可能な場合と部分的にしか観測できない場合がある
部分観測の例:
部分観測マルコフ決定過程 - Wikipedia
報酬 : エージェントが行動を取った結果として環境から受け取る値
学習の基準となる
この報酬が大きくなるように学習をする
行動 : エージェントが環境に対してする操作