arXiv논문2026. 05. 04. 18:50

마르코프 리스크 측정과 다패턴 리스크 근사법을 활용한 강화학습

요약

본 논문은 리스크 회피적인 유한 시간 마르코프 결정 문제(MDP)를 위한 미니배치 측정 기반의 마르코프 합리적 리스크 측정을 소개하고, 선형 시스템을 일반화하는 다패턴 리스크 회피적 문제를 정의합니다. 이 두 개념을 특징 기반 Q-학습에 적용하여, 시간 범위($H$), 미니배치 크기($N$), 에피소드 수($K$)에 대한 고확률 regret bound $\mathcal{O}(H^2 N^H \sqrt{ K})$를 증명했습니다. 또한 정책 평가 단계를 간소화하는 경제적인 Q-학습 방법을 제안하며, 그 이론적 결과를 확률적 할당 문제와 짧은 시간 범위 다팔트 팔레트 문제에 적용하여 설명합니다.

핵심 포인트

리스크 회피적 MDP를 위한 미니배치 측정 기반의 마르코프 합리적 리스크 측정을 도입했습니다.
선형 시스템을 일반화하는 '다패턴 리스크 회피적 문제' 클래스를 정의하고 이를 활용합니다.
특징 기반 Q-학습에 두 개념을 적용하여, 고확률 regret bound $\mathcal{O}(H^2 N^H \sqrt{ K})$를 도출했습니다.
정책 평가 단계를 간소화하는 효율적인(economical) Q-학습 방법을 제안합니다.

리스크 회피적 (risk-averse) 유한 시간 마르코프 결정 문제 (MDP) 에 대해, 미니배치 측정 (mini-batch measures) 이라는 특수한 클래스의 마르코프 합리적 리스크 측정 (Markov coherent risk measures) 을 소개합니다. 또한 선형 시스템 클래스를 일반화하는 다패턴 리스크 회피적 문제 (multipattern risk-averse problems) 의 클래스를 정의합니다. 우리는 다패턴 Q-팩터 근사 (multipattern Q-factor approximation) 를 가진 특징 기반 Q-학습 (feature-based $Q$-learning method) 에서 두 개념을 사용하며, $H$ 가 시간 범위 (horizon), $N$ 이 미니배치 크기 (mini-batch size), $K$ 가 에피소드 수 (number of episodes) 일 때 $\mathcal{O}ig(H^2 N^H \\sqrt{ K}ig)$ 의 고확률 regret bound 를 증명합니다. 또한 정책 평가 (backward) 단계를 간소화하는 Q-학습 방법의 경제적 버전 (economical version) 을 제안합니다. 이론적 결과는 확률적 할당 문제 (stochastic assignment problem) 와 짧은 시간 범위 다팔트 팔레트 문제 (short-horizon multi-armed bandit problem) 에서 설명됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

마르코프 리스크 측정과 다패턴 리스크 근사법을 활용한 강화학습

요약

핵심 포인트

댓글