[Parameter Space Noise for Exploration]이라는 제목의 논문을 읽기 시작했다.
Abstract
: exploration을 위해 대부분의 deep reinforcement learning 방법에서 action space에 noise를 가함을 밝힌다. 이에 대한 대안으로 agent의 parameter에 직접 noise를 가하는 것을 제시한다. 이러한 접근법이 off-와 on-policy method 모두 beneficial함을 실험을 통해 제시한다.
Introduction
: agent의 behavior가 local minimum으로 수렴하는 것을 막는 역할을 한다는 점에서 exploration의 중요성을 강조한다. temporally-correlated noise를 가하는 것이 exploratory nature를 increase시킨다고 설명한다. 논문을 통해 parameter space에서 noise를 주는 것이 DQN, DDPG, 그리고 TRPO와 같은 방법과 결합했을 때 어떻게 exploratory behavior를 improve 시키는 지에 대해 연구하고자 했다고 밝힌다. 실험적으로 high-dimensional descrete environment와 continuous control task에 off-/on-policy 모두에 적용할 수 있었고 traditional한 action space noise-based baseline을 outperform함을 보여줬다.
Background
먼저 off-policy method인 DQN과 DDPG에 대해 소개한다.
[1] Deep Q-Networks (DQN) : deep neural network를 Q-value function에 대한 function approximator로 이용한다. 이때 policy는 현재 state가 s일 때 Q(s, .)를 최대화하는 action a를 결정하게 된다.
[2] Deep Deterministic Policy Gradients (DDPG) : actor-critic algorithm이다. critic은 off-polcy data와 recursive Bellman equation을 이용하여 Q-value function을 estimation한다. actor는 두 network 모두에 대해서 back-propagate하면서 critic이 estimate한 Q-value를 최대화하도록 훈련된다.
다음으로 on-policy method인 TRPO를 소개한다.
[1] Trust Region Policy Optimization (TRPO) : REINFORCE를 이용하여 constrained optimization problem을 푼다.
Parameter Space Noise For Exploration
structured exploration을 위해 현재 policy의 parameter vector에 addicitve Gaussian noise를 적용한다.
[state-dependent exploration] : action space에 noise를 가하는 것과 달리 policy에 perturbation을 주면 같은 state에 대해 같은 action을 뱉으므로 consistency를 보장할 수 있음을 설명한다.
[perturbing deep neural networks] : perturb되는 layer 사이에 layer normalization을 추가하여 같은 perturbation scale이 모든 layer에서 이용될 수 있도록 한다.
[adaptive noise scaling] : action space의 variance에 따라 adaptive하게 noise를 scale한다. 사실 이 부분은 잘 이해가 안 되었다. 대충 noise level을 학습 단계에 따라 적절히 맞추는 것으로 이해했다.