[RL] Self-Supervised Exploration via Disagreement]

Reinforcement Learning

[RL] Self-Supervised Exploration via Disagreement]

최나무🌈 2025. 4. 22. 16:14

[Self-Supervised Exploration via Disagreement]라는 제목의 논문을 읽기 시작했다.

Abstract

: efficient한 exploration이 sensorimotor learning에서 long-standing problem이었음을 밝히며 글을 연다. video game과 simulation에서 advance가 있었지만 이들 formulation은 stochastic dynamics가 있는 environment에서 stuck하거나 real robotics setup에 적용하기에는 너무 비효율적이라는 문제를 제기한다. active learning 분야에서 영감을 받은 exploration formulation을 제안한다. 구체적으로는 ensemble model을 훈련시킨 뒤 individual model 간의 disagreement가 클 때 incentive를 준다. 마지막으로 stochastic-Atari, Mujuco 그리고 Unity와 같은 다양한 benchmark environment에서 formulation의 efficacy를 demonstrate해봤음을 밝힌다.

Introduction

: exploration이 sensorimotor learning에서 bottleneck으로 작용하는 점을 설명한다. exploration을 위한 방법으로 intrinsic reward를 소개한다. 하지만 이를 위해 필요한 predictive model을 noise-free simulated environment를 넘어서 학습시키는 것은 challenging하다고 지적한다. 해결책으로 stochastic한 predictive forward model을 만드는 방법을 제안한다. 다른 방법으로서 deterministic model을 만들되 feature space가 stochasticity에 invariant하도록 하는 방법을 설명한다. 이뿐만 아니라 sample efficiency 또한 현재까지의 intrinsic reward formulation의 큰 문제라고 지적한다. 이 두 문제를 해결하기 위해 active learning에 영감을 받은 새로운 formulation을 내놓는다고 밝힌다. 구체적으로는, ensemble model을 만들고 각각의 disagreement에 대해서 incentive를 주는 방법을 제안한다.

Disagreement as Intrinsic Reward

active learning의 goal을 labeling cost를 minimize하면서도 accuracy를 maximize하는 optimal한 training example을 찾는 것으로 설명한다. model-varaince maximization을 차용했음을 밝힌다. 따라서 현재 state와 취한 action을 input으로 다음 state를 예측하는 ensemble model을 만들고 disagreement를 intrinsic reward로 사용하는 방법을 제안한다.

Exploration in Stochastic Environments

noisy actuation, difficult 또는 inherent randomness가 stochasticity의 source가 될 수 있다고 설명한다. 충분한 sample이 주어졌을 때 dynamic prediction model은 stochastic sample의 mean을 배우고 이에 따라 varaicne 또한 줄어드므로 local-mina에 stuck되는 것을 막을 수 있다고 주장한다.

대부분의 경우에 prediction model은 supervised manner로 train되고 agent의 policy는 reinforcement learning을 통해 train된다고 설명한다. policy optimization을 likelihood maximization으로 풀 수 있도록 intrinsic reward를 differentiable한 function으로 제안한다.