성숙하는 마르코프 결정 과정 (Maturing Markov Decision Processes): 증가하는 정보와 축소되는 행동 집합 하에서의
요약
정보는 증가하고 실행 가능한 행동은 줄어드는 비대칭적 구조를 다루는 '성숙하는 마르코프 결정 과정(MMDPs)'을 제안합니다. 만료 행동 우선순위 원칙을 통해 의사결정 효율성을 높이는 구조 인식 강화학습 프레임워크를 소개합니다.
핵심 포인트
- 정보-행동 비대칭성을 모델링하는 MMDPs 프레임워크 제안
- 만료 행동 우선순위 원칙을 통한 시급한 결정 식별
- 구조 인식 강화학습을 통한 학습 효율성 향상 입증
- 공급망 및 현금 관리 등 복잡한 의사결정 환경에 적용 가능
순차적 의사결정 문제(Sequential decision problems)는 종종 정보와 의사결정 유연성의 비대칭적 진화를 보여줍니다. 즉, 의사결정 주기가 전개됨에 따라 에이전트(agent)는 더 풍부한 정보를 받는 반면, 운영상의 마감, 약속(commitments) 또는 자원 제약으로 인해 실행 가능한 행동(actions)은 만료됩니다. 표준 MDP(Markov Decision Processes) 공식은 일반적으로 이러한 구조를 단계 의존적 상태 설명(stage-dependent state descriptions)과 행동 마스크(action masks)로 평탄화하여, 어떤 결정이 시급하고 어떤 결정이 연기될 수 있는지를 결정하는 중첩된 정보-행동 비대칭성(information--action asymmetry)을 모호하게 만듭니다. 우리는 이러한 정보-행동 비대칭성을 중심으로 구축된 공식인 성숙하는 마르코프 결정 과정(Maturing Markov Decision Processes, MMDPs)을 소개합니다. 우리는 다음 단계 이전에 반드시 해결되어야 하는 행동을 식별하는 만료 행동 우선순위 원칙(expiring-action priority principle)을 통해 이 모델의 주요 결과 중 하나를 규명합니다. 이러한 구조에 착안하여, 우리는 단계 인식 정책 설계(stage-aware policy design), 만료 행동 추상화(expiring-action abstraction), 그리고 증류(distillation)를 결합한 탐색 증강 학습(search-augmented learning)을 포함하는 구조 인식 강화학습(structure-aware reinforcement learning) 프레임워크를 개발합니다. 통제된 다중 공급업체 보충 문제(multi-supplier replenishment problem), 복잡도가 증가하는 단순화된 현금 관리 환경, 그리고 생산 규모의 시뮬레이터에 대한 실험 결과, 이러한 비대칭성을 명시적으로 모델링하는 것이 학습 효율성을 향상시키며 의사결정 문제가 확장됨에 따라 그 가치가 점점 더 커짐을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기