arXiv논문2026. 05. 14. 20:15

엔트로피적 최적 정책 식별을 위한 타이트한 샘플 복잡도 경계

요약

본 논문은 엔트로피적 위험 측정치를 사용하는 유한 지평선 위험 민감 강화학습에서 최적 정책 식별에 필요한 샘플 복잡도 경계를 연구합니다. 기존 연구는 알려진 하한($ ext{Ω}(e^{|eta| H})$)과 최신 상한($O(e^{2|eta| H})$) 사이에 지수적인 격차가 존재함을 보여주었습니다. 저자들은 이 격차를 좁히기 위해 엔트로피 기준에 맞게 조정된 KL 기반 탐사 보너스를 활용하는 순방향 모델 기반 알고리즘을 제안합니다.

핵심 포인트

엔트로피적 위험 측정치를 이용한 유한 지평선 강화학습의 최적 정책 식별이 목표입니다.
기존 연구는 샘플 복잡도에 있어 하한과 상한 사이에 $ ext{Ω}(e^{|eta| H})$와 $O(e^{2|eta| H})$라는 지수적 격차를 발견했습니다.
저자들은 이 격차를 줄이기 위해 KL 기반 탐사 보너스를 활용하는 순방향 모델 기반 알고리즘을 제안합니다.
새로운 기술적 혁신으로, 지수적 효용의 매끄러움 특성을 이용해 더 날카로운 집중 경계를 도출하고 하한과 일치하는 샘플 복잡도를 얻는 정지 규칙을 제시했습니다.

우리는 엔트로피적 위험 측정치 (entropic risk measure) 하에서 유한 지평선 위험 민감 강화학습 (finite-horizon risk-sensitive reinforcement learning)을 위한 최적 정책 식별 (best-policy identification)을 연구합니다. 최근 연구에서는 근사적으로 최적인 정책을 식별하는 데 필요한 샘플 수의 하한 (lower bound)과 상한 (upper bound) 사이의 지수적 지평선 의존성 (exponential horizon dependence)에서 일정한 격차가 있음을 입증했습니다. 구체적으로, 알려진 하한은 $Ω(e^{|β| H})$에 비례하며 여기서 $H$는 MDP의 지평선 (horizon)인 반면, 최신 상한은 생성 모델 (generative model)을 사용하여 기껏해야 $O(e^{2|β| H})$ (arXiv:2506.00286v2)를 달성합니다. 우리는 이 추가적인 지수적 요인이 지수적 효용 (exponential utilities)에 대한 지나치게 느슨한 집중 제어 (concentration control)에서 기인함을 보여줍니다. 이 열려 있는 격차를 좁히기 위해, 우리는 엔트로피 기준 (entropic criterion)에 맞게 조정한 KL 기반 탐사 보너스 (KL-based exploration bonuses)를 기반으로 하는 순방향 모델 기반 알고리즘 (forward-model based algorithm)을 통해 이 문제의 분석을 재검토합니다. 우리가 얻은 개선은 두 가지 주요한 새로운 기술적 혁신 덕분입니다. 우리는 지수적 효용 (exponential utility)의 매끄러움 특성 (smoothness properties)을 활용하여 더 날카로운 집중 경계 (sharper concentration bounds)를 도출하며, 이러한 타이트함 (tightness)을 더욱 활용하여 하한과 일치하는 샘플 복잡도 (sample complexity)를 얻는 새로운 정지 규칙 (stopping rule)을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

엔트로피적 최적 정책 식별을 위한 타이트한 샘플 복잡도 경계

요약

핵심 포인트

댓글