[RL] Exploration by Random Network Distillation

Reinforcement Learning

[RL] Exploration by Random Network Distillation

최나무🌈 2025. 4. 22. 10:14

[Exploration by Random Network Distillation]이라는 제목의 논문을 읽기 시작했다.

Abstract

: 쉽게 구현할 수 있고 minimal한 computational overhead를 갖는 exploration bonus를 제안한다고 밝힌다. observation의 feature에 대한 prediction error를 이용해 bonus를 준다고 한다. 더하여, intrinsic과 extrinsic reward를 flexible하게 합치는 method를 보여준다. 그 결과 Atari game에서 significant한 progress를 확인할 수 있었다.

Introduction

: extrinsic reward가 sparse하거나 찾기 힘들 때 reinforcement learning이 실패한다고 설명한다. 따라서 충분한 exploration을 보장하는 방법이 필요하다. 이를 해결하기 위해 제안된 count, pseudo-count, information gain 또는 prediction gain에 기반한 exploration method가 많은 수의 parallel environment로 scale up 하기 어려움을 지적한다. 이를 위해 구현하기 쉽고, high-dimensional observation에서 잘 작동하며, 어떤 policy optimization algorithm과도 같이 사용될 수 있고, computationally efficient한 exploration bonus를 제안한다. 이는 train된 것과 비슷한 example에 대해서 prediction error가 유의미하게 낮다는 점을 기반으로 한다.

Exploration Bonuses

extrinsic reward가 sparse할 때 exploration bonus를 주는 방법들에 대해 설명한다. intrinsic reward는 novel state에서 높고 frequent하게 visit되는 state에 대해서는 낮을 수록 좋다. 이를 위해 count-based exploration method를 tabular 또는 non-tabular setting에서 어떻게 이용할 수 있는지 보여준다. alternative는 intrinsic reward를 agent의 transition과 관련한 prediction error로 기술하는 것이다. forward dynamics과 inverse dynamics를 예시로 든다.

Random Network Distillation

이 연구에서는 prediction problem이 random하게 generate되는 다른 approach를 제시한다. prediction problem을 setting하는 고정된 randomly initialization된 target network와 agent가 수집한 data로 훈련되는 predictor network로 구성된다. 이 두 network 사아의 distillation을 통해 prediction error는 train된 것과 dissimilar한 novel state에서 높아진다.

prediction error가 생길 수 있는 원인들(amount of training data, stochasticity, model mispecification, learning dynamics)에 대해 설명한다. 여기서 amount of training data가 prediction error를 exploration bonus로 사용할 수 있는 근거가 된다. 제안한 방법은 고정된 target network를 통해 두 번째와 세 번째 factor를 obviate한다고 설명한다.

RND prediction error가 uncertainty quantification method와 연관이 있음을 보여준다. 두 개의 value head를 사용하여 intrinsic과 extrinsic reward를 합치는 문제를 해결한다. prediction error의 값을 consistent scale로 만들기 위해 intrinsic return의 standard deviation의 running estimate로 normalization한다.