본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:59

다항 로지스틱 (Multinomial Logistic) MDP를 위한 미니맥스 최적 분산 인식 후회 한계 (Minimax Optimal

요약

다항 로지스틱(MNL) 모델로 전이가 모델링되는 MDP 환경에서 기존 알고리즘의 후회(regret) 한계를 개선하는 새로운 강화학습 알고리즘을 제안합니다. 제안된 알고리즘은 가치 함수의 정규화된 평균 분산을 활용하여 구조화된 MDP에서 호라이즌 의존성을 획기적으로 줄이며, 미니맥스 최적성을 증명하여 MNL 혼합 MDP의 후회 복잡도를 최초로 규명했습니다.

핵심 포인트

  • 다항 로지스틱(MNL) 혼합 MDP를 위한 새로운 강화학습 알고리즘 제안
  • 가치 함수의 정규화된 평균 분산을 도입하여 구조화된 MDP에서의 후회 한계 개선
  • KL 제약 로버스트 MDP의 경우 호라이즌 의존성을 $H$배만큼 감소시킴
  • $\Omega(dH^2\bar\sigma_T\sqrt{T})$ 하한 확립을 통해 미니맥스 최적성(minimax optimality) 증명
  • MNL 혼합 MDP의 후회 복잡도를 최초로 완전히 규명

우리는 전이(transition)가 다항 로지스틱 (Multinomial Logistic, MNL) 모델로 모델링되는 에피소드형 마르코프 결정 과정 (Markov Decision Processes, MDPs)에 대한 강화학습 (Reinforcement Learning)을 연구합니다. MNL 혼합 MDP를 위한 기존 알고리즘들은 $d$가 특징 차원 (feature dimension), $H$가 에피소드 길이 (episode length), $T$가 에피소드 횟수일 때 $\smash{\tilde{O}(dH^2\sqrt{T})}$ (Li et al., 2024)의 후회 (regret)를 산출합니다. 로지스틱 밴딧 (logistic bandit) 문헌 (Abeille et al., 2021; Faury et al., 2022; Boudart et al., 2026)에서 영감을 받아, 우리는 학습자의 궤적 (trajectory)을 따라 최적의 다운스트림 가치 함수 (downstream value function)의 정규화된 평균 분산 (normalised average variance)을 측정하는 문제 의존적 상수 $\smash{\bar\sigma_T \leq 1/2}$를 도입합니다. 우리는 $\smash{\tilde{O}(dH^2\bar\sigma_T\sqrt{T})}$의 후회를 달성하는 알고리즘을 제안하며, 이는 최악의 경우 기존의 한계를 회복하면서 구조화된 MDP (structured MDPs)에 대해서는 이를 개선합니다. 예를 들어, KL 제약 로버스트 MDP (KL-constrained robust MDPs)의 경우 $\bar\sigma_T = O(H^{-1})$가 되어, 호라이즌 (horizon) 의존성을 $H$ 배만큼 줄여줍니다. 나아가 우리는 이에 상응하는 $\smash{\Omega(dH^2\bar\sigma_T\sqrt{T})}$ 하한 (lower bound)을 확립하여, (로그 인자를 제외한) 미니맥스 최적성 (minimax optimality)을 증명하고 MNL 혼합 MDP의 후회 복잡도 (regret complexity)를 최초로 완전히 규명합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0