전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent
요약
전이 확률을 모르는 MDP 환경에서 데이터 의존적 후회 한계를 달성하는 새로운 정책 최적화 알고리즘을 제안합니다. 낙관적 FTRL 기반의 알고리즘을 통해 적대적 및 확률적 손실 모두에 적응하며, 전이 의존적 복잡도 항을 포함한 새로운 이론적 한계를 규명했습니다.
핵심 포인트
- 전이 커널을 모르는 MDP에서의 정책 최적화 문제 해결
- 낙관적 FTRL 기반의 새로운 알고리즘 개발
- 데이터 의존적 전이 보너스를 통한 추정기 편향 제어
- 1차, 2차 및 경로 길이 후회 한계 도출
- 확률적 영역에서의 갭 의존적 후회 달성
우리는 전이 커널(transition kernels)을 모르는 온라인 에피소드형 테이블형 마르코프 결정 과정(MDPs)에 대한 정책 최적화(policy optimization)를 연구하며, 데이터 의존적 후회 한계(data-dependent regret bounds)와 함께 'best-of-both-worlds' 보장을 목표로 합니다. 최근 연구(Dann et al., 2023; Li et al., 2026)는 정책 최적화가 전이 확률을 알고 있는 경우에 한해 1차(first-order), 2차(second-order), 경로 길이(path-length) 한계를 통해 적대적(adversarial) 손실과 확률적(stochastic) 손실 모두에 적응할 수 있음을 보여주었으나, 전이 커널을 모르는 상태에서 정책 최적화에 의해 이러한 데이터 의존적 보장이 달성 가능한지는 미해결 과제로 남아 있었습니다. 우리는 전이 확률을 모르는 상태에서도 이러한 보장을 달성하는 낙관적 FTRL(optimistic follow-the-regularized-leader) 기반의 새로운 알고리즘을 개발함으로써 이 문제를 해결합니다. 핵심 요소는 손실 예측 오차(loss-prediction error)를 통해 추정기 편향(estimator bias)을 제어하는 데이터 의존적 전이 보너스(transition bonus)와 함께 설계된 새로운 낙관적 $Q$-함수 추정기(optimistic $Q$-function estimators)입니다. 우리의 분석은 더 나아가 전이 커널을 추정하는 데 드는 본질적인 비용을 포착하는, 피할 수 없는 전이 의존적 복잡도 항(transition-dependent complexity term)을 식별합니다. 그 결과, 우리는 전이 의존적 복잡도 항을 포함하는 1차, 2차, 경로 길이 한계를 얻는 동시에, 확률적 영역(stochastic regime)에서는 갭 의존적(gap-dependent) $\mathrm{polylog}(T)$ 후회를 동시에 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기