arXiv논문2026. 06. 19. 11:06

평균의 분위수 (Quantile of Means): 미니맥스 최적 강화학습 (Reinforcement Learning)을 위한 보너스 없는

요약

본 논문은 강화학습의 탐험(exploration)을 위해 기존의 복잡한 횟수 기반 불확실성 추정치 대신 분위수 기반 앙상블 방법을 제안합니다. 유한 지평 MDP 환경에서 보너스 없이도 최적의 분산 의존적 후회 경계를 달성할 수 있음을 이론적으로 증명합니다.

핵심 포인트

기존 횟수 기반 불확실성 추정치의 계산 복잡성 문제 해결
분위수 기반 앙상블을 통한 새로운 탐험 방법론 제안
유한 지평 MDP에서 최적의 분산 의존적 후회 경계 달성
강화학습 내 앙상블 기반 탐험에 대한 이론적 토대 마련

최적 강화학습 (Optimal Reinforcement Learning (RL)) 알고리즘은 일반적으로 탐험 (exploration)을 유도하기 위해 정교하게 설계된 횟수 기반 불확실성 추정치 (count-based uncertainty estimates)에 의존합니다. 이러한 추정치는 이론적으로는 타당하지만, 실제 환경에서는 계산하기 어렵기 때문에 탐험 휴리스틱 (exploration heuristics)을 설계하는 데 있어 제한적인 통찰력을 제공합니다. 한편, 앙상블 (ensembling) 방식이 실용적인 접근법으로 등장했으나, 여전히 이론적 근거가 부족한 상태로 남아 있습니다. 최근 멀티 암드 밴딧 (Multi-Armed Bandits)을 위한 앙상블 기반 방법론을 바탕으로, 본 논문에서는 유한 지평 마르코프 결정 과정 (finite-horizon Markov Decision Processes (MDPs))을 위한 분위수 기반 (quantile-based) 앙상블 방법을 제안합니다. 우리의 단순한 횟수 미사용 (count-free) 접근 방식은 최적의 분산 의존적 후회 경계 (variance-dependent regret bounds)를 달성하며, RL에서의 앙상블 기반 탐험에 대한 이론적 토대를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

평균의 분위수 (Quantile of Means): 미니맥스 최적 강화학습 (Reinforcement Learning)을 위한 보너스 없는

요약

핵심 포인트

댓글