
・強化学習で使われる用語について理解したい。
・強化学習を実装したいけど、学習手法の違いがよくわからない。
こんにちは、るい(@CenotenBlog)です。
この記事では、上記の悩みにお答えします。
・強化学習とは
・強化学習のフレームワーク
・強化学習で使われる用語
ちなみに、この記事を書いている僕は、国立研究機関にて、人工知能に関する研究を行っています。
本記事は、強化学習の生みの親であるリチャード・サットン教授の『強化学習』を参考にしています。
強化学習とは
では早速、強化学習とは何か。
教科書的なまとめかたをすると、
強化学習とは、試行錯誤を通して、最適な意思決定則(方策)を学習する、機械学習手法のひとつ。
また、別の言い方では、
強化学習の目的は、最終的に受け取る報酬の総和(収益)を最大化すること。
ということができます。
つまり、簡単にいうと、「ご褒美が沢山もらえる行動を学習する」ってことですね。
しかし、最適な意思決定則(方策)や報酬などと言われてもピンとこない人が多いはず…
なので具体的に、最適な意思決定則(方策)とは何か、受け取る報酬とは何か、強化学習のフレームワークを使って解説していきたいと思います。
強化学習のフレームワーク
強化学習では、しばしば下記の様な図が使用されます。

この図の見方はとても簡単です。
1)エージェントは環境から知覚する状態を元に、行動の意思決定を行う。
2)行動の結果として得られる報酬と環境の状態から方策を学習する。
3)1)に戻る。
つまり、先程の最適な意思決定則(方策)とは、ある状態におけるベストな行動をとる確率のことを指します。
そして、受け取る報酬とは、エージェントが実行した行動の評価といったところです。
ここで一旦、上の図に出てきた用語をまとめておきましょう。
※論文を読むときに便利なので、英語も一緒に覚えておきましょう!
強化学習で使われる用語
エージェント(Agent)
学習と意思決定を行う者(ロボットとかゲームのプレイヤー)
環境(Environment)
エージェント外部の全て
状態(State)
エージェントや環境の状態(位置や速度など)
方策、戦略(Policy)
現在の状態でエージェントがとる行動(行動を選択する確率)
価値(Value)
現在の状態を基点として、エージェントが将来受け取る報酬の総和(期待値)
報酬(Reward)
エージェントの行動の結果として、もらえる評価の値
さらに詳しい内容については、下記の記事にまとめています。
ご参考までにどうぞ。
[mathjax] ・強化学習の用語を詳しく知りたい。・各用語の意味や数式を理解したい。・各用語の英語表現を合わせて知りたい。 こんにちは、るい(@CenotenBlog)です。 この記事では、上記[…]
教師あり学習や教師なし学習との違いは?
ここまで読んで、強化学習のイメージは付きましたでしょうか。
最後に、教師あり学習との違から、強化学習の特徴を理解しましょう。
教師あり学習
教師あり学習では、エージェント(学習器)に正解を与え学習を行います。
なので、エージェントの行動がなんであろうと、正しい行動(答え)を直接教示(Instruction)します。
簡単にまとめれば、実際に行われた行動(予測)とは独立しているということ。
強化学習
一方で、強化学習は、実行した行動の評価(Evaluation)(報酬)を訓練情報として利用します。
つまり、実際に行われた行動(方策)に完全に依存しているということ。
まとめ
今回は、このくらいにします。
何かわからないことがあれば、気軽にSNSで連絡ください!
・強化学習では「ご褒美が沢山もらえる行動」を学習する。
・教師あり学習は教示的フィードバック、強化学習は評価的フィードバック。