본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 20:15

엔트로피적 최적 정책 식별을 위한 타이트한 샘플 복잡도 경계

요약

본 논문은 엔트로피적 위험 측정치를 사용하는 유한 지평선 위험 민감 강화학습에서 최적 정책 식별에 필요한 샘플 복잡도 경계를 연구합니다. 기존 연구는 알려진 하한($ ext{Ω}(e^{|eta| H})$)과 최신 상한($O(e^{2|eta| H})$) 사이에 지수적인 격차가 존재함을 보여주었습니다. 저자들은 이 격차를 좁히기 위해 엔트로피 기준에 맞게 조정된 KL 기반 탐사 보너스를 활용하는 순방향 모델 기반 알고리즘을 제안합니다.

핵심 포인트

  • 엔트로피적 위험 측정치를 이용한 유한 지평선 강화학습의 최적 정책 식별이 목표입니다.
  • 기존 연구는 샘플 복잡도에 있어 하한과 상한 사이에 $ ext{Ω}(e^{|eta| H})$와 $O(e^{2|eta| H})$라는 지수적 격차를 발견했습니다.
  • 저자들은 이 격차를 줄이기 위해 KL 기반 탐사 보너스를 활용하는 순방향 모델 기반 알고리즘을 제안합니다.
  • 새로운 기술적 혁신으로, 지수적 효용의 매끄러움 특성을 이용해 더 날카로운 집중 경계를 도출하고 하한과 일치하는 샘플 복잡도를 얻는 정지 규칙을 제시했습니다.

우리는 엔트로피적 위험 측정치 (entropic risk measure) 하에서 유한 지평선 위험 민감 강화학습 (finite-horizon risk-sensitive reinforcement learning)을 위한 최적 정책 식별 (best-policy identification)을 연구합니다. 최근 연구에서는 근사적으로 최적인 정책을 식별하는 데 필요한 샘플 수의 하한 (lower bound)과 상한 (upper bound) 사이의 지수적 지평선 의존성 (exponential horizon dependence)에서 일정한 격차가 있음을 입증했습니다. 구체적으로, 알려진 하한은 $Ω(e^{|β| H})$에 비례하며 여기서 $H$는 MDP의 지평선 (horizon)인 반면, 최신 상한은 생성 모델 (generative model)을 사용하여 기껏해야 $O(e^{2|β| H})$ (arXiv:2506.00286v2)를 달성합니다. 우리는 이 추가적인 지수적 요인이 지수적 효용 (exponential utilities)에 대한 지나치게 느슨한 집중 제어 (concentration control)에서 기인함을 보여줍니다. 이 열려 있는 격차를 좁히기 위해, 우리는 엔트로피 기준 (entropic criterion)에 맞게 조정한 KL 기반 탐사 보너스 (KL-based exploration bonuses)를 기반으로 하는 순방향 모델 기반 알고리즘 (forward-model based algorithm)을 통해 이 문제의 분석을 재검토합니다. 우리가 얻은 개선은 두 가지 주요한 새로운 기술적 혁신 덕분입니다. 우리는 지수적 효용 (exponential utility)의 매끄러움 특성 (smoothness properties)을 활용하여 더 날카로운 집중 경계 (sharper concentration bounds)를 도출하며, 이러한 타이트함 (tightness)을 더욱 활용하여 하한과 일치하는 샘플 복잡도 (sample complexity)를 얻는 새로운 정지 규칙 (stopping rule)을 제안합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0