arXiv논문2026. 06. 01. 11:03

슬라이스 발산(Sliced Divergences)을 이용한 다변량 분포 강화학습 (Multivariate Distributional

요약

다변량 수익 분포를 모델링하는 과정에서 발생하는 계산적 복잡성과 수축성 문제를 해결하기 위한 슬라이스 분포 강화학습(SDRL)을 제안합니다. 투영을 통해 1차원 발산을 다변량으로 확장하며, 다양한 할인 행렬 환경에서의 벨만 수축을 증명합니다.

핵심 포인트

다변량 분포 강화학습의 계산적 추적 가능성 문제 해결
투영을 이용해 1차원 발산을 다변량 수익 분포로 확장
균등 및 최대 슬라이싱을 통한 벨만 수축 증명
Wasserstein, Cramér, MMD 등 다양한 발산 클래스 지원
Atari 및 그리드월드 환경을 통한 성능 검증

분포 강화학습 (Distributional Reinforcement Learning, DRL)은 기대값 (Expectations) 대신 전체 수익 분포 (Return distribution)를 모델링하지만, 이를 다변량 (Multivariate) 설정으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 많은 일반적인 지표 (Metrics)들이 1차원을 넘어 자연스럽게 일반화되지 않거나 계산적 추적 가능성 (Computational tractability)을 잃으며, 다변량 사례는 일반 행렬 할인 (General matrix discounting)과 같이 수축 결과 (Contraction results)를 사용할 수 없는 추가적인 어려움을 야기합니다. 본 논문에서는 투영 (Projections)을 통해 다루기 쉬운 1차원 발산 (Divergences)을 다변량 수익 분포로 끌어올리는 슬라이스 분포 강화학습 (Sliced Distributional Reinforcement Learning, SDRL)을 소개합니다. 우리는 공유된 스칼라 할인 (Shared scalar discounting) 하에서 균등 슬라이싱 (Uniform slicing)에 대한 벨만 수축 (Bellman contraction)을 증명하며, 일반적인 밀집 할인 행렬 (General dense discount matrices) 하에서 수축이 가능한 최대 슬라이싱 (Maximum-slicing) 변형을 소개합니다. SDRL은 광범위한 기본 발산 클래스를 지원합니다. 우리는 Wasserstein, Cramér, 그리고 최대 평균 불일치 (Maximum Mean Discrepancy, MMD)를 분석하며, 어떤 SDRL 변형이 분포 강화학습 (DRL)에서 사용되는 표준 단일 샘플 벨만 업데이트 (Single-sample Bellman update)에 적합한지 규명합니다. 우리는 토이 체인 문제 (Toy chain problem)와 그리드월드 이미지 기반 환경 (Gridworld image-based environment), 그리고 Atari 게임의 일부 하위 집합에서 SDRL을 평가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

슬라이스 발산(Sliced Divergences)을 이용한 다변량 분포 강화학습 (Multivariate Distributional

요약

핵심 포인트

댓글