지수 효용을 위한 강화학습: 할인된 MDP에서의 알고리즘 및 수렴성
요약
본 논문은 할인된 마르코프 결정 과정(MDP)에서 지수 효용을 최대화하는 강화학습(RL)의 이론적 문제를 다룹니다. 기존 가치 기반 알고리즘의 부족함을 해결하기 위해, 연구진은 고정 위험 회피 설정 하에 두 가지 Q-값 스타일 확장을 제시합니다. 이 확장들은 각각 $L_ ext{inf}$ 및 sup-log/Thompson 메트릭에서 수축 연산자임을 증명하며, 이를 통해 유도된 탐욕적 정상 정책이 지수 효용 목표를 달성하는 최적의 정상 정책임을 수학적으로 입증합니다.
핵심 포인트
- 할인된 MDP에서의 지수 효용 최적화는 기존 가치 기반 RL 알고리즘에 이론적 공백을 야기한다.
- 연구진은 고정 위험 회피 설정 하에서 두 가지 Q-값 스타일 확장을 도출했다.
- 이 확장들은 $L_ ext{inf}$ 및 sup-log/Thompson 메트릭 공간에서 수축 연산자임을 수학적으로 증명하였다.
- 유도된 탐욕적 정상 정책은 지수 효용 목표에 대해 최적의 정상 정책임이 입증되었다.
할인된 마르코프 결정 과정(MDP)에서 지수 효용 최적화를 위한 강화학습 (RL)은 원칙적인 가치 기반 알고리즘이 부족합니다. 본 논문에서는 고정 위험 회피 설정에서 이러한 격차를 다룹니다. extcite{porteus1975optimality}에서 연구된 지수 효용의 벨만(Bellman)-형 방정식에 기반하여, 우리는 두 가지 Q-값 스타일 확장을 도출하고, 관련 연산자들이 각각 $L_\infty$ 및 sup-log/Thompson 메트릭에서 수축(contraction)임을 보여줍니다. 우리는 이들의 고정점(fixed point)을 특성화하고, 유도된 탐욕적 정상 정책(greedy stationary policy)이 정상 정책 중 지수 효용 목표에 대해 최적임을 증명합니다. 이러한 구조적 결과는 두 개의 m
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기