Reinforcement Learning

[RL] Curiosity-driven Exploration by Self-supervised Prediction

최나무🌈 2025. 4. 21. 21:51

[Curiosity-driven Exploration by Self-supervised Prediction]이라는 제목의 논문을 읽기 시작했다.

 

Abstract

: 많은 real-world scenario에서 agent에게 extrinsic하게 주어지는 reward는 매우 sparse함을 설명한다. 이러한 상황에서 curiosity가 intrinsic reward signal로서 agent가 environment를 exploration하도록 한다는 점을 밝힌다.

 

Introduction

: motiavtion 또는 curiosity가 새로운 state를 발견하기 위해 environment를 explore할 필요를 설명한다고 서술한다. 이는 reinforcement learning에서 reward가 sparse할 때 critical해진다. intrinsic reward에 대한 formulation은 1) agent가 novel state를 explore할 수 있도록 encourage한다, 2) 특정action의 consequence에 대한 agent의 prediction의 uncertainty를 줄이도록 encourage한다의 두 가지 경우로 나눌 수 있다. novelty를 측정하기 위한 statistical model을 high-dimensional state space에서 만들기 어려움을 지적하면서 해결책으로서 predict하기 어렵지만 learnable한 state를 만날 때 reward를 주는 방법을 제안한다.

 

intrinsic reward signal 문제를 해결하는데 있어 agent의 action으로 바뀌거나 agent에 영향을 줄 수 있는 envrionment의 change만 고려하여 feature space에 embedding하는 방법을 제안한다.

Curiosity-Driven Exploration

agent가 1) curiosity-driven intrinsic reward signal을 주는 reward generator와 2) reward signal을 maximize하는 action sequecne를 주는 policy로 구성되어 있다고 설명한다. policy를 deep neural network를 이용해 parameterization했음을 밝힌다.

 

raw sensory space에서 prediction을 하는 것이 undesirable한 이유를 설명한다. curiosity 기반의 prediction error로부터 feature를 배우는 mechanism을 제안한다. 첫 번째 module은 feature encoding을 input으로 받아 두 state 사이를 오가게 되는 action을 predict한다. 두 번째 module은 action과 step t에서의 feature encoding을 입력으로 받아 step t + 1에서의 feature encoding을 예측한다. 이 module은 regression loss로 optimization된다. 이 두 module을 이용해서 intrinsic reward signal을 얻는다.