論文紹介: Bridging the Gap Between Value and Policy Based Reinforcement Learning
紹介する論文
Bridging the Gap Between Value and Policy Based Reinforcement Learning
概要
on-policyの学習の安定性とoff-policyのサンプル効率の高さを備えた手法
離散行動空間タスクでA3CやDQNと比べて良い成果をあげた
1. モチベーション
on-policy,off-policy手法の特徴
- on-policyによる学習
→学習の安定性は高いが,サンプル効率が悪い
- off-policyによる学習
→サンプル効率は高いが,学習の安定性は低い
on-policyの安定性とoff-policyのサンプル効率を兼ね備えた手法が理想!!
2.手法
結論から言うと,以下のように表される誤差関数を通して,政策,価値関数を最適化する
学習には,ある部分軌跡 を用いる.
これにより,
- 過去のサンプルの利用によるサンプル効率化
- 確率的な政策の利用による学習の安定化
の2点を実現できる.
1. エントロピー正則化付き強化学習
以下の関数を考える.
ただし,,は
である.
ここで,は以下のように再帰的に表すことができる.
2. 政策と価値関数の関係性
次に最適な状態価値と政策の関係について考える.
まず,政策をボルツマン分布で表現すると
となる.
ここでこれを,「1. エントロピー正則化付き強化学習」で導き出したに代入すると
となる.
さらにこれを変形すると,
最後に,この式をの分母に代入すると
となる.
3. 誤差関数の導出
先ほどのの式に対して,両辺に対数をとって変形すると
の方程式が得られる.
さらに,に関して,tステップ目まで展開すると以下のようになる.
ここで,この方程式が成立する状態価値関数,政策が最適であるため,この方程式の左辺と右辺の2乗誤差を誤差関数とする! (両辺が等しい→両辺の差が0→両辺の二乗誤差を誤差関数として最小化を目指す!)
3.メリット
1. サンプル効率が高い
誤差関数が全ての部分軌跡で成立するように学習を行う →リプレイバッファで格納した過去の軌跡を利用することができる(サンプル効率の向上)
2.政策の学習の安定性が高い
従来のoff-policy手法・・・Q学習をベースとしていたため,行動評価が決定的で不安定
本手法・・・行動評価が決定的でなく,かつエントロピー正則化により探索不足による収束の不安定性も緩和!
4.まとめ
エントロピー正則化付き強化学習の考え方により,on-policyとoff-policyのメリットを共存させたアルゴリズムを開発した