카오스 역학계에서의 분포 강화학습 (Distributional Reinforcement Learning)에 관하여
요약
카오스 역학계에서 발생하는 강화학습의 불안정성 문제를 해결하기 위해 분포형 강화학습(Distributional RL)의 효용성을 분석합니다. 수익 분포가 개별 궤적보다 통계적으로 더 안정적임을 증명하여 더 매끄러운 벨만 목적 함수를 생성하는 원리를 설명합니다.
핵심 포인트
- 카오스 시스템의 초기 조건 민감성이 RL 학습의 불안정성을 유발함
- 스칼라 가치 함수는 발산하는 궤적을 평균화하여 학습을 방해함
- 수익 분포는 개별 궤적보다 더 규칙적으로 진화함을 입증
- 분포형 RL을 통해 더 잘 조건화된 학습 및 안정적인 최적화 가능
카오스 역학계 (Chaotic dynamical systems)는 강화학습 (Reinforcement Learning (RL))에 근본적인 과제를 제기합니다. 초기 조건에 대한 지수적 민감성 (exponential sensitivity)은 높은 분산의 부트스트랩 타겟 (bootstrap targets)과 조건화가 잘 되지 않은 (poorly conditioned) 그래디언트 업데이트 (gradient updates)를 유발합니다. 카오스 역학은 유체 흐름 (fluid flows)과 기후 시스템 (climate systems)부터 멀티 에이전트 시스템 (multi-agent systems)에 이르기까지 과학 및 공학 분야 전반에서 발생하며, 이러한 분야에서는 신뢰할 수 있는 학습이 매우 절실히 요구됩니다. 표준 RL 방법론들은 스칼라 가치 함수 (scalar value functions)를 통해 기대 수익 (expected returns)을 최적화하는데, 이는 발산하는 궤적 (diverging trajectories)들을 암묵적으로 평균화하며 궤적 수준의 불안정성을 학습 목표와 얽히게 만듭니다. 본 논문에서는 완만한 통계적 안정성 가정 (mild statistical stability assumptions) 하에서, $1$-Wasserstein metric으로 측정할 때 수익 분포 (return distribution)가 개별 궤적보다 더 규칙적으로 진화하며, 이를 통해 더 매끄러운 분포형 벨만 목적 함수 (distributional Bellman objective)를 생성함을 보여줍니다. 최적화를 이러한 측정 수준의 구조 (measure level structure)와 일치시킴으로써, 분포형 RL (distributional RL)은 더 잘 조건화된 학습을 제공합니다. 우리는 카오스 시스템에서 분포형 방법론이 갖는 이점과 카오스 하에서의 RL 목적 함수의 기하학적 구조 (geometries)에 대한 원칙적인 설명을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기