[#Exploration: a Study of Count-Based Exploration for Deep Reinforcement Learning]이라는 제목의 논문을 읽기 시작했다.
Abstract
: count-based exploration algorithm이 small discrete Markov decision process를 tabular reinforcement learning method로 풀 때 near-optimally하다는 언급으로 글을 시작한다. 하지만 state space가 high-dimensional할 때 대부분의 state의 방문 횟수는 매우 적으므로 count-based method가 이용되기 어렵다는 점을 밝힌다. 하지만 본 연구를 통해 count-based method의 간단한 generalization으로 high dimensional 또는 continuous deep RL benchmark에서 SoTA에 가까운 performance를 낼 수 있다는 점을 보여준다. 여기서 state는 ahsh code에 mapping된다.
Introduction
: exploration의 중요성을 강조한다. 더하여, exploration과 exploitation의 균형을 맞추는 것이 ML의 중요한 과제임을 언급한다. uniform sampling이나 Gaussian noise에 의존하는 기존 방법의 한계를 지적한다. 이를 극복하기 위해 제안된 방법들을 소개하면서 간단하고 빠른 방법의 필요성을 호소한다. state-action의 방문 상태를 기록하고 bonus reward를 주는 count-based exploration에 대해 설명한다.
Methodology
[Notation] : finite-horizon discounted Markov decision process를 가정한다.
[Count-based exploration via static hashing] : hash function을 통해 state spce를 discretize한다. performance가 어떤 hash function을 사용하는지에 따라 크게 달라짐을 보고한다. 좋은 hash function의 조건으로 granuality를 제시한다. 이를 위해 locality-sensitive hashing (LSH)를 사용했음을 밝힌다.
[Count-based exploration via learned hashing] : 이미지와 같이 복잡한 state space에서 단순히 similarity를 measure하는 것은 semantical similarity를 보장하지 못한다는 점을 설명한다. 이에 따라 autoencoder를 이용해 hash code를 학습하는 것을 제안한다. hash code의 충돌 문제를 sigoid activation에 uniform noise, U(-a, a)를 주는 것으로 해결한다.
'Reinforcement Learning' 카테고리의 다른 글
[RL] Curiosity-driven Exploration by Self-supervised Prediction (0) | 2025.04.21 |
---|---|
[RL] Unifying Count-Based Exploration and Intrinsic Motivation (0) | 2025.04.21 |
[RL] Noisy Netowrks for Exploration (0) | 2025.04.21 |
[RL] Parameter Space Noise for Exploration (0) | 2025.04.21 |
[RL] Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning (0) | 2025.04.21 |