generated at
強化学習
半教師あり学習と呼ばれることもある
試行錯誤による成功・失敗から学習する
アルゴリズムのタスク実行結果に基づいて報酬または罰が渡されるようになっており、アルゴリズムは報酬を可能な限り多く、罰を可能な限り少なくできる結果の集合を求める

参考文献