전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent

우리는 전이 커널(transition kernels)을 모르는 온라인 에피소드형 테이블형 마르코프 결정 과정(MDPs)에 대한 정책 최적화(policy optimization)를 연구하며, 데이터 의존적 후회 한계(data-dependent regret bounds)와 함께 'best-of-both-worlds' 보장을 목표로 합니다. 최근 연구(Dann et al., 2023; Li et al., 2026)는 정책 최적화가 전이 확률을 알고 있는 경우에 한해 1차(first-order), 2차(second-order), 경로 길이(path-length) 한계를 통해 적대적(adversarial) 손실과 확률적(stochastic) 손실 모두에 적응할 수 있음을 보여주었으나, 전이 커널을 모르는 상태에서 정책 최적화에 의해 이러한 데이터 의존적 보장이 달성 가능한지는 미해결 과제로 남아 있었습니다. 우리는 전이 확률을 모르는 상태에서도 이러한 보장을 달성하는 낙관적 FTRL(optimistic follow-the-regularized-leader) 기반의 새로운 알고리즘을 개발함으로써 이 문제를 해결합니다. 핵심 요소는 손실 예측 오차(loss-prediction error)를 통해 추정기 편향(estimator bias)을 제어하는 데이터 의존적 전이 보너스(transition bonus)와 함께 설계된 새로운 낙관적 $Q$-함수 추정기(optimistic $Q$-function estimators)입니다. 우리의 분석은 더 나아가 전이 커널을 추정하는 데 드는 본질적인 비용을 포착하는, 피할 수 없는 전이 의존적 복잡도 항(transition-dependent complexity term)을 식별합니다. 그 결과, 우리는 전이 의존적 복잡도 항을 포함하는 1차, 2차, 경로 길이 한계를 얻는 동시에, 확률적 영역(stochastic regime)에서는 갭 의존적(gap-dependent) $\mathrm{polylog}(T)$ 후회를 동시에 달성합니다.

Insights

전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기