arXiv논문2026. 06. 10. 11:37

상태 의존적 실행 가능 행동 집합을 가진 마르코프 결정 과정(MDP)을 위한 Bellman-Taylor Score Decoding

요약

상태에 따라 실행 가능한 행동이 제한되는 MDP 문제를 해결하기 위해 Bellman-Taylor score decoding 프레임워크를 제안합니다. 테일러 전개를 활용해 정책 학습을 유클리드 점수 공간으로 이동시켜 표준 DRL 알고리즘 적용을 가능하게 합니다.

핵심 포인트

상태 의존적 실행 가능 행동 제약 조건 해결
테일러 전개 기반의 행동 디코더 프레임워크 제안
잠재 점수 MDP를 통한 표준 DRL 알고리즘 최적화
구조적 및 알고리즘적 오차에 대한 성능 보증 제공
대기 행렬 네트워크 제어 문제에서 성능 개선 입증

운영 연구(Operations Research) 분야의 많은 마르코프 결정 과정 (MDPs)은 상태에 의존하며 다양한 운영 제약 조건에 의해 암시적으로 정의되는 실행 가능한 행동 (Feasible actions)을 가집니다. 이러한 특징은 행동 인터페이스가 일반적으로 고정된 유한 행동 카탈로그 또는 단순한 유클리드 공간 (Euclidean space)을 가정하는 표준 심층 강화학습 (Deep Reinforcement Learning, DRL) 알고리즘을 사용하기 어렵게 만듭니다. 최적 행동-가치 함수 (Optimal action-value function)의 테일러 전개 (Taylor expansion)에서 영감을 얻어, 우리는 행동 디코더 (Action decoder)를 통해 실행 가능성을 강제하는 동시에 정책 학습을 유클리드 점수 공간 (Euclidean score space)으로 이동시키는 프레임워크인 Bellman--Taylor score decoding을 제안합니다. 유도된 잠재 점수 MDP (Latent-score MDP)는 디코더를 통해 미분하지 않고도 표준 DRL 알고리즘에 의해 최적화될 수 있습니다. 우리는 이 접근 방식의 최적성 격차 (Optimality gap)가 구조적 근사 오차 (Structural approximation error)와 알고리즘 학습 오차 (Algorithmic learning error)로 분해됨을 보여주는 성능 보증을 제공합니다. 마지막으로, 이 프레임워크를 정책이 본질적으로 상태 의존적 인덱스 기반 배정 규칙 (Index-based dispatching rule)을 학습하는 대기 행렬 네트워크 제어 문제 (Queueing network control problem)에 적용합니다. 수치 실험 결과, 작은 규모의 사례에서는 최적에 가까운 성능을 보였으며, 더 큰 시스템에서는 벤치마크 대비 상당한 개선을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

상태 의존적 실행 가능 행동 집합을 가진 마르코프 결정 과정(MDP)을 위한 Bellman-Taylor Score Decoding

요약

핵심 포인트

댓글