arXiv논문2026. 05. 11. 21:26

지수 효용을 위한 강화학습: 할인된 MDP에서의 알고리즘 및 수렴성

요약

본 논문은 할인된 마르코프 결정 과정(MDP)에서 지수 효용을 최대화하는 강화학습(RL)의 이론적 문제를 다룹니다. 기존 가치 기반 알고리즘의 부족함을 해결하기 위해, 연구진은 고정 위험 회피 설정 하에 두 가지 Q-값 스타일 확장을 제시합니다. 이 확장들은 각각 $L_ ext{inf}$ 및 sup-log/Thompson 메트릭에서 수축 연산자임을 증명하며, 이를 통해 유도된 탐욕적 정상 정책이 지수 효용 목표를 달성하는 최적의 정상 정책임을 수학적으로 입증합니다.

핵심 포인트

할인된 MDP에서의 지수 효용 최적화는 기존 가치 기반 RL 알고리즘에 이론적 공백을 야기한다.
연구진은 고정 위험 회피 설정 하에서 두 가지 Q-값 스타일 확장을 도출했다.
이 확장들은 $L_ ext{inf}$ 및 sup-log/Thompson 메트릭 공간에서 수축 연산자임을 수학적으로 증명하였다.
유도된 탐욕적 정상 정책은 지수 효용 목표에 대해 최적의 정상 정책임이 입증되었다.

할인된 마르코프 결정 과정(MDP)에서 지수 효용 최적화를 위한 강화학습 (RL)은 원칙적인 가치 기반 알고리즘이 부족합니다. 본 논문에서는 고정 위험 회피 설정에서 이러한 격차를 다룹니다. extcite{porteus1975optimality}에서 연구된 지수 효용의 벨만(Bellman)-형 방정식에 기반하여, 우리는 두 가지 Q-값 스타일 확장을 도출하고, 관련 연산자들이 각각 $L_\infty$ 및 sup-log/Thompson 메트릭에서 수축(contraction)임을 보여줍니다. 우리는 이들의 고정점(fixed point)을 특성화하고, 유도된 탐욕적 정상 정책(greedy stationary policy)이 정상 정책 중 지수 효용 목표에 대해 최적임을 증명합니다. 이러한 구조적 결과는 두 개의 m

AI 자동 생성 콘텐츠

원문 바로가기

지수 효용을 위한 강화학습: 할인된 MDP에서의 알고리즘 및 수렴성

요약

핵심 포인트

댓글