【入門】強化学習とは【用語や他手法との違いを簡単にまとめました】

強化学習がよくわからない。
強化学習で使われる用語について理解したい。
強化学習を実装したいけど、学習手法の違いがよくわからない。
 
 

こんにちは、るい(@CenotenBlog)です。

この記事では、上記の悩みにお答えします。

✔︎本記事の内容

・強化学習とは

・強化学習のフレームワーク

・強化学習で使われる用語

ちなみに、この記事を書いている僕は、国立研究機関にて、人工知能に関する研究を行っています。

本記事は、強化学習の生みの親であるリチャード・サットン教授の『強化学習』を参考にしています。

強化学習とは

では早速、強化学習とは何か。
教科書的なまとめかたをすると、

強化学習とは、試行錯誤を通して、最適な意思決定則(方策)を学習する、機械学習手法のひとつ。

また、別の言い方では、

強化学習の目的は、最終的に受け取る報酬の総和(収益)を最大化すること。

ということができます。

つまり、簡単にいうと、「ご褒美が沢山もらえる行動を学習する」ってことですね。

しかし、最適な意思決定則(方策)や報酬などと言われてもピンとこない人が多いはず

なので具体的に、最適な意思決定則(方策)とは何か、受け取る報酬とは何か、強化学習のフレームワークを使って解説していきたいと思います。

強化学習のフレームワーク

強化学習では、しばしば下記の様な図が使用されます。

この図の見方はとても簡単です。

✔︎本記事の内容

1)エージェントは環境から知覚する状態を元に、行動の意思決定を行う。

2)行動の結果として得られる報酬と環境の状態から方策を学習する。

3)1)に戻る。

つまり、先程の最適な意思決定則(方策)とは、ある状態におけるベストな行動をとる確率のことを指します。

そして、受け取る報酬とは、エージェントが実行した行動の評価といったところです。

ここで一旦、上の図に出てきた用語をまとめておきましょう。
※論文を読むときに便利なので、英語も一緒に覚えておきましょう!

強化学習で使われる用語

エージェント(Agent)

学習と意思決定を行う者(ロボットとかゲームのプレイヤー)

環境(Environment)

エージェント外部の全て

状態(State)

エージェントや環境の状態(位置や速度など)

方策、戦略(Policy)

現在の状態でエージェントがとる行動(行動を選択する確率)

価値(Value)

現在の状態を基点として、エージェントが将来受け取る報酬の総和(期待値)

報酬(Reward)

エージェントの行動の結果として、もらえる評価の値

さらに詳しい内容については、下記の記事にまとめています。
ご参考までにどうぞ。

関連記事

[mathjax] ・強化学習の用語を詳しく知りたい。・各用語の意味や数式を理解したい。・各用語の英語表現を合わせて知りたい。     こんにちは、るい(@CenotenBlog)です。 この記事では、上記[…]

教師あり学習や教師なし学習との違いは?

ここまで読んで、強化学習のイメージは付きましたでしょうか。
最後に、教師あり学習との違から、強化学習の特徴を理解しましょう。

教師あり学習

教師あり学習では、エージェント(学習器)に正解を与え学習を行います。

なので、エージェントの行動がなんであろうと、正しい行動(答え)を直接教示(Instruction)します。

簡単にまとめれば、実際に行われた行動(予測)とは独立しているということ。

強化学習

一方で、強化学習は、実行した行動の評価(Evaluation)(報酬)を訓練情報として利用します。

つまり、実際に行われた行動(方策)に完全に依存しているということ。

まとめ

今回は、このくらいにします。

何かわからないことがあれば、気軽にSNSで連絡ください!

✔︎まとめ

・強化学習では「ご褒美が沢山もらえる行動」を学習する。

・教師あり学習は教示的フィードバック、強化学習は評価的フィードバック。

最新情報をチェックしよう!