본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 18:50

마르코프 리스크 측정과 다패턴 리스크 근사법을 활용한 강화학습

요약

본 논문은 리스크 회피적인 유한 시간 마르코프 결정 문제(MDP)를 위한 미니배치 측정 기반의 마르코프 합리적 리스크 측정을 소개하고, 선형 시스템을 일반화하는 다패턴 리스크 회피적 문제를 정의합니다. 이 두 개념을 특징 기반 Q-학습에 적용하여, 시간 범위($H$), 미니배치 크기($N$), 에피소드 수($K$)에 대한 고확률 regret bound $\mathcal{O}(H^2 N^H \sqrt{ K})$를 증명했습니다. 또한 정책 평가 단계를 간소화하는 경제적인 Q-학습 방법을 제안하며, 그 이론적 결과를 확률적 할당 문제와 짧은 시간 범위 다팔트 팔레트 문제에 적용하여 설명합니다.

핵심 포인트

  • 리스크 회피적 MDP를 위한 미니배치 측정 기반의 마르코프 합리적 리스크 측정을 도입했습니다.
  • 선형 시스템을 일반화하는 '다패턴 리스크 회피적 문제' 클래스를 정의하고 이를 활용합니다.
  • 특징 기반 Q-학습에 두 개념을 적용하여, 고확률 regret bound $\mathcal{O}(H^2 N^H \sqrt{ K})$를 도출했습니다.
  • 정책 평가 단계를 간소화하는 효율적인(economical) Q-학습 방법을 제안합니다.

리스크 회피적 (risk-averse) 유한 시간 마르코프 결정 문제 (MDP) 에 대해, 미니배치 측정 (mini-batch measures) 이라는 특수한 클래스의 마르코프 합리적 리스크 측정 (Markov coherent risk measures) 을 소개합니다. 또한 선형 시스템 클래스를 일반화하는 다패턴 리스크 회피적 문제 (multipattern risk-averse problems) 의 클래스를 정의합니다. 우리는 다패턴 Q-팩터 근사 (multipattern Q-factor approximation) 를 가진 특징 기반 Q-학습 (feature-based $Q$-learning method) 에서 두 개념을 사용하며, $H$ 가 시간 범위 (horizon), $N$ 이 미니배치 크기 (mini-batch size), $K$ 가 에피소드 수 (number of episodes) 일 때 $\mathcal{O}ig(H^2 N^H \\sqrt{ K}ig)$ 의 고확률 regret bound 를 증명합니다. 또한 정책 평가 (backward) 단계를 간소화하는 Q-학습 방법의 경제적 버전 (economical version) 을 제안합니다. 이론적 결과는 확률적 할당 문제 (stochastic assignment problem) 와 짧은 시간 범위 다팔트 팔레트 문제 (short-horizon multi-armed bandit problem) 에서 설명됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0