arXiv논문2026. 06. 04. 13:22

확률적 최단 경로 문제(Stochastic Shortest Path Problem)를 위한 베이지안 학습

요약

본 연구는 확률적 최단 경로(SSP) 문제 해결을 위한 새로운 베이지안 학습 프레임워크를 제안합니다. 벨만 최적 방정식을 통해 행동 가치 함수(Q*)의 사후 믿음을 직접 구축하며, 기존 방식의 비현실적인 가정 없이 불확실성을 정량화합니다.

핵심 포인트

벨만 방정식을 활용한 Q* 사후 믿음 직접 구축
비현실적 모델링 가정 및 임의적 근사치 배제
가우시안 가능도 완화를 통한 추론 용이성 확보
기존 TD 기반 방법론 대비 높은 데이터 효율성 입증

순차적 의사결정 문제(Sequential decision-making problems)는 종종 마르코프 결정 과정 (MDP, Markov decision process)으로 모델링됩니다. 본 연구에서는 흡수 종단 상태(absorbing terminal states)를 갖는 무한 지평선 무할인 MDP (infinite-horizon undiscounted MDP)인 확률적 최단 경로 (SSP, stochastic shortest path) 문제에 집중합니다. 우리는 의사결정 과업과의 상호작용을 통해 최적의 의사결정 전략을 학습하기 위한 베이지안 프레임워크 (Bayesian framework)를 개발합니다. 구체적으로, 우리는 최적의 행동 가치 함수 (optimal action-value function) $Q^$를 학습하지만, 기존의 많은 베이지안 접근 방식들과 달리 비현실적인 모델링 가정이나 임의적인 근사치 (ad-hoc approximations)에 의존하지 않습니다. 우리의 접근 방식은 벨만 최적 방정식 (Bellman's optimality equations)을 통해 $Q^$에 대한 사후 믿음 (posterior beliefs)을 직접 구축하는 것입니다. 결정론적 보상 (deterministic rewards)의 경우, 우리는 사후 분포를 매니폴드 밀도 (manifold density)를 가진 분포로 특징짓습니다. 더 간단한 추론을 용이하게 하기 위해, 우리는 르베그 밀도 (Lebesgue density)가 존재하도록 가능도 (likelihood)를 완화합니다. 그 이면에는 식별 불가능성 (unidentifiability) 문제가 발생할 수 있습니다. 구체적으로, 완화된 사후 분포는 부적절한 의사결정 규칙 (improper decision rules)에 상당한 질량 (mass)을 가질 수 있는 반면, 정확한 사후 분포는 그렇지 않습니다. 우리는 또한 벤치마킹 연구에 유용한 $Q^*$의 테이블 매개변수화 (tabular parametrisation), 가우시안 가능도 완화 (Gaussian likelihood relaxation) 및 가우시안 사전 확률 (Gaussian prior)에 대한 최적 행동 선택의 정확한 사후 확률을 계산합니다. Deep Sea 벤치마크의 변형들에 대한 수치 연구는 우리의 발견을 검증합니다. 우리는 우리의 프레임워크가 불확실성을 충실하게 정량화하며, 다른 시간차 기반 (temporal-difference-based) 베이지안 방법론들과 비교했을 때 데이터 효율성이 더 높음을 입증합니다. 마지막으로 향후 연구를 위한 권장 사항과 함께 결론을 맺습니다.

AI 자동 생성 콘텐츠

원문 바로가기

확률적 최단 경로 문제(Stochastic Shortest Path Problem)를 위한 베이지안 학습

요약

핵심 포인트

댓글