ニューラルネットワークを用いたQ-learningの手順について

ブロック崩しを攻略する人工知能をニューラルネットワークで作ろうとしたのですが，強化学習が必要ということを学習しました。今回はどのようにニューラルネットワークと強化学習を結びつけるかについて書きます。

今回，強化学習の１つであるQ-learningを採用します。Q-learningとは。。。

強化学習の代表例として、Q学習がある。これは、或る環境状態sの下で、行動aを選択する価値（行動の価値）Q(s,a)を学習する方法となる。
或る状態sのとき、Q(s,a)の最も高いaを最適な行動として選択すればよい。

※自分の言葉で書けないってことは，いまだに意味がわかってない証拠です(T_T)

この記事にもあるようにQ(s,a)が未知関数なのでこいつをニューラルネットワークを使って近似的に求めます。

１.　適当にニューラルネットワークを使って，ある状態sから複数の行動a_nを出力します。

２.　適当に行動価値関数Q(s,a)を決めると，当然Q(s,a_n)がn個決まります。

ここからあるQ(s,a_i)を選ぶんやけど，どうやって選ぶかは，

各行動の Q 値をもとにボルツマン分布に基づくルーレット選択により行動 ap を決定する

です。

３.　Q-learningでよく用いられる更新式を使って新しいQ(s,a)_newを作ります。

４.　Q(s,a)_new - Q(s,a) が小さくなるようにニューラルネットワークを更新します。

以下繰り返し更新を行う

私がかかえているブロック崩しについての問題は，どのタイミングでどのように学習を行えばいいのかわからないところです。まだQ-learningも理解できてはいませんが，難しい文献が多いので，ブロック崩しの問題に置き換えて理解していこうと思います。

強化学習の説明と更新式についてのわかりやすい例

Unityゲーム開発スタジオ　スタジオしまづ