본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:06

평균의 분위수 (Quantile of Means): 미니맥스 최적 강화학습 (Reinforcement Learning)을 위한 보너스 없는

요약

본 논문은 강화학습의 탐험(exploration)을 위해 기존의 복잡한 횟수 기반 불확실성 추정치 대신 분위수 기반 앙상블 방법을 제안합니다. 유한 지평 MDP 환경에서 보너스 없이도 최적의 분산 의존적 후회 경계를 달성할 수 있음을 이론적으로 증명합니다.

핵심 포인트

  • 기존 횟수 기반 불확실성 추정치의 계산 복잡성 문제 해결
  • 분위수 기반 앙상블을 통한 새로운 탐험 방법론 제안
  • 유한 지평 MDP에서 최적의 분산 의존적 후회 경계 달성
  • 강화학습 내 앙상블 기반 탐험에 대한 이론적 토대 마련

최적 강화학습 (Optimal Reinforcement Learning (RL)) 알고리즘은 일반적으로 탐험 (exploration)을 유도하기 위해 정교하게 설계된 횟수 기반 불확실성 추정치 (count-based uncertainty estimates)에 의존합니다. 이러한 추정치는 이론적으로는 타당하지만, 실제 환경에서는 계산하기 어렵기 때문에 탐험 휴리스틱 (exploration heuristics)을 설계하는 데 있어 제한적인 통찰력을 제공합니다. 한편, 앙상블 (ensembling) 방식이 실용적인 접근법으로 등장했으나, 여전히 이론적 근거가 부족한 상태로 남아 있습니다. 최근 멀티 암드 밴딧 (Multi-Armed Bandits)을 위한 앙상블 기반 방법론을 바탕으로, 본 논문에서는 유한 지평 마르코프 결정 과정 (finite-horizon Markov Decision Processes (MDPs))을 위한 분위수 기반 (quantile-based) 앙상블 방법을 제안합니다. 우리의 단순한 횟수 미사용 (count-free) 접근 방식은 최적의 분산 의존적 후회 경계 (variance-dependent regret bounds)를 달성하며, RL에서의 앙상블 기반 탐험에 대한 이론적 토대를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0