arXiv논문2026. 06. 02. 10:47

재앙적 상태가 존재하는 MDP에서 Bellman 최적성을 통한 전망 이론 (Prospect-Theory) 행동 연구

요약

재앙적 상태가 포함된 MDP에서 Bellman 최적성이 어떻게 전망 이론(Prospect Theory)과 유사한 행동을 유발하는지 연구합니다. 연구 결과, 표준 최적 제어 메커니즘만으로도 S자형 가치 함수, 손실 민감도, 반사 효과와 같은 특징이 자연스럽게 발생함을 입증했습니다.

핵심 포인트

재앙적 상태가 존재하면 Bellman 최적성에서 전망 이론 특성이 발생함
S자형 가치 함수 및 내생적 손실 민감도 계수 도출
성장 체제에서는 안전하게, 하락 체제에서는 위험하게 행동하는 정책 역전 확인
비대칭적 보상 없이도 이러한 현상이 발생하는 구조적 메커니즘 식별

우리는 흡수되는 재앙적 상태 (absorbing catastrophic state)가 있는 마르코프 결정 과정 (Markov decision processes, MDPs)에서의 위험 중립 제어 (risk-neutral control)를 연구합니다. 보상이 선형적이고 에이전트가 효용 곡률 (utility curvature), 확률 가중 (probability weighting), 또는 프레이밍 의존성 (framing dependence)을 갖지 않음에도 불구하고, 표준 Bellman 최적성 (Bellman optimality)은 세 가지 전망 이론 (prospect-theory) 유사 특징을 생성합니다: S자형 가치 함수 (value-function) 프로필 (재앙 근처에서는 볼록하고, 원거리에서는 오목함), 내생적 손실 민감도 계수 $\lambda^(S) > 1$, 그리고 반사 효과 (reflection-effect) 정책 역전입니다. 495개의 구성에 걸쳐, 최적 정책은 양의 드리프트 (positive-drift, 성장) 체제에서는 위험한 행동의 즉각적인 기대값이 더 높음에도 불구하고 재앙 근처에서 안전하게 행동하며, 음의 드리프트 (negative-drift, 하락) 체제에서는 안전한 행동의 즉각적인 기대 손실이 더 낮음에도 불구하고 재앙 근처에서 위험하게 행동합니다. 우리는 승리 확률 $p$, 보상 비대칭성 $r = |\Delta_\ell/\Delta_w|$, 그리고 할인 계수 $\beta$에만 의존하며 수치적 해와 $R^2 = 0.999$로 일치하는 점근적 손실 회피 고원 (asymptotic loss-aversion plateau) $\bar{\lambda}$에 대한 폐쇄형 표현식 (closed-form expression)을 도출합니다. 이 메커니즘은 비대칭적 보상을 필요로 하지 않습니다. 세 가지 비대칭 수준에서 $(p, \beta)$를 전수 조사한 결과, 1을 초과하는 $\bar{\lambda}$의 비대칭 기여도는 $r = 1.25$에서 중앙값 4.6%였으며, $r = 2$에서는 13.9%로 상승했습니다. 이때 경계 기여도 (boundary contribution)는 테스트된 모든 셀에서 비대칭 기여도를 초과했습니다. 이러한 현상은 Tabular Q-learning (모델 프리 에이전트가 성장 체제에서 상관관계 0.98, 하락 체제에서 1.00로 $V^$를 재현함) 및 가우시안 (Gaussian), 두꺼운 꼬리를 가진 Student-$t_3$, 그리고 단계 크기의 최대 50%에 달하는 비대칭 왜도 정규 (asymmetric skew-normal) 노이즈를 가진 확률적 전이 (stochastic transitions) 하에서도 지속됩니다. 여기서 점근적 고원은 안전 채널 노이즈의 경우 0.41% 이내, 위험 채널 또는 양쪽 채널 노이즈의 경우 9.6% 이내로 폐쇄형 예측을 추적합니다. 이러한 결과는 흡수되는 실패 상태 (absorbing failure states)가 최적 제어 하에서 전망 이론과 유사한 행동을 유발하는 충분한 구조적 메커니즘임을 식별합니다.

AI 자동 생성 콘텐츠

원문 바로가기

재앙적 상태가 존재하는 MDP에서 Bellman 최적성을 통한 전망 이론 (Prospect-Theory) 행동 연구

요약

핵심 포인트

댓글