紹介する論文 Bridging the Gap Between Value and Policy Based Reinforcement Learning 概要 on-policyの学習の安定性とoff-policyのサンプル効率の高さを備えた手法 エントロピー正則化強化学習の考え方に基づいた時に導き出される,価値関数と政策関数の…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。