[RL] Parameter Space Noise for Exploration

Reinforcement Learning

[RL] Parameter Space Noise for Exploration

최나무🌈 2025. 4. 21. 11:33

[Parameter Space Noise for Exploration]이라는 제목의 논문을 읽기 시작했다.

Abstract

: exploration을 위해 대부분의 deep reinforcement learning 방법에서 action space에 noise를 가함을 밝힌다. 이에 대한 대안으로 agent의 parameter에 직접 noise를 가하는 것을 제시한다. 이러한 접근법이 off-와 on-policy method 모두 beneficial함을 실험을 통해 제시한다.

Introduction

: agent의 behavior가 local minimum으로 수렴하는 것을 막는 역할을 한다는 점에서 exploration의 중요성을 강조한다. temporally-correlated noise를 가하는 것이 exploratory nature를 increase시킨다고 설명한다. 논문을 통해 parameter space에서 noise를 주는 것이 DQN, DDPG, 그리고 TRPO와 같은 방법과 결합했을 때 어떻게 exploratory behavior를 improve 시키는 지에 대해 연구하고자 했다고 밝힌다. 실험적으로 high-dimensional descrete environment와 continuous control task에 off-/on-policy 모두에 적용할 수 있었고 traditional한 action space noise-based baseline을 outperform함을 보여줬다.

Background

먼저 off-policy method인 DQN과 DDPG에 대해 소개한다.

[1] Deep Q-Networks (DQN) : deep neural network를 Q-value function에 대한 function approximator로 이용한다. 이때 policy는 현재 state가 s일 때 Q(s, .)를 최대화하는 action a를 결정하게 된다.

[2] Deep Deterministic Policy Gradients (DDPG) : actor-critic algorithm이다. critic은 off-polcy data와 recursive Bellman equation을 이용하여 Q-value function을 estimation한다. actor는 두 network 모두에 대해서 back-propagate하면서 critic이 estimate한 Q-value를 최대화하도록 훈련된다.

다음으로 on-policy method인 TRPO를 소개한다.

[1] Trust Region Policy Optimization (TRPO) : REINFORCE를 이용하여 constrained optimization problem을 푼다.

Parameter Space Noise For Exploration

structured exploration을 위해 현재 policy의 parameter vector에 addicitve Gaussian noise를 적용한다.

[state-dependent exploration] : action space에 noise를 가하는 것과 달리 policy에 perturbation을 주면 같은 state에 대해 같은 action을 뱉으므로 consistency를 보장할 수 있음을 설명한다.

[perturbing deep neural networks] : perturb되는 layer 사이에 layer normalization을 추가하여 같은 perturbation scale이 모든 layer에서 이용될 수 있도록 한다.

[adaptive noise scaling] : action space의 variance에 따라 adaptive하게 noise를 scale한다. 사실 이 부분은 잘 이해가 안 되었다. 대충 noise level을 학습 단계에 따라 적절히 맞추는 것으로 이해했다.

'Reinforcement Learning' 카테고리의 다른 글

[RL] Curiosity-driven Exploration by Self-supervised Prediction (0)	2025.04.21
[RL] Unifying Count-Based Exploration and Intrinsic Motivation (0)	2025.04.21
[RL] [#Exploration: a Study of Count-Based Exploration for Deep Reinforcement Learning (0)	2025.04.21
[RL] Noisy Netowrks for Exploration (0)	2025.04.21
[RL] Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning (0)	2025.04.21

현재글[RL] Parameter Space Noise for Exploration

다채로운 세상 속을 누비며

풀잎에 맺힌 이슬은 곧 사라지겠지만 그 아름다운 순간 만은 영원하길.

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

다채로운 세상 속을 누비며