본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:03

슬라이스 발산(Sliced Divergences)을 이용한 다변량 분포 강화학습 (Multivariate Distributional

요약

다변량 수익 분포를 모델링하는 과정에서 발생하는 계산적 복잡성과 수축성 문제를 해결하기 위한 슬라이스 분포 강화학습(SDRL)을 제안합니다. 투영을 통해 1차원 발산을 다변량으로 확장하며, 다양한 할인 행렬 환경에서의 벨만 수축을 증명합니다.

핵심 포인트

  • 다변량 분포 강화학습의 계산적 추적 가능성 문제 해결
  • 투영을 이용해 1차원 발산을 다변량 수익 분포로 확장
  • 균등 및 최대 슬라이싱을 통한 벨만 수축 증명
  • Wasserstein, Cramér, MMD 등 다양한 발산 클래스 지원
  • Atari 및 그리드월드 환경을 통한 성능 검증

분포 강화학습 (Distributional Reinforcement Learning, DRL)은 기대값 (Expectations) 대신 전체 수익 분포 (Return distribution)를 모델링하지만, 이를 다변량 (Multivariate) 설정으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 많은 일반적인 지표 (Metrics)들이 1차원을 넘어 자연스럽게 일반화되지 않거나 계산적 추적 가능성 (Computational tractability)을 잃으며, 다변량 사례는 일반 행렬 할인 (General matrix discounting)과 같이 수축 결과 (Contraction results)를 사용할 수 없는 추가적인 어려움을 야기합니다. 본 논문에서는 투영 (Projections)을 통해 다루기 쉬운 1차원 발산 (Divergences)을 다변량 수익 분포로 끌어올리는 슬라이스 분포 강화학습 (Sliced Distributional Reinforcement Learning, SDRL)을 소개합니다. 우리는 공유된 스칼라 할인 (Shared scalar discounting) 하에서 균등 슬라이싱 (Uniform slicing)에 대한 벨만 수축 (Bellman contraction)을 증명하며, 일반적인 밀집 할인 행렬 (General dense discount matrices) 하에서 수축이 가능한 최대 슬라이싱 (Maximum-slicing) 변형을 소개합니다. SDRL은 광범위한 기본 발산 클래스를 지원합니다. 우리는 Wasserstein, Cramér, 그리고 최대 평균 불일치 (Maximum Mean Discrepancy, MMD)를 분석하며, 어떤 SDRL 변형이 분포 강화학습 (DRL)에서 사용되는 표준 단일 샘플 벨만 업데이트 (Single-sample Bellman update)에 적합한지 규명합니다. 우리는 토이 체인 문제 (Toy chain problem)와 그리드월드 이미지 기반 환경 (Gridworld image-based environment), 그리고 Atari 게임의 일부 하위 집합에서 SDRL을 평가합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0