본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:41

강화학습 (RL) 내 분포 변화 (Distributional Shifts)의 통합된 인과적 기원 분류 체계

요약

강화학습(RL)에서 발생하는 분포 변화(Distributional Shifts)의 원인을 인과적으로 분류하는 통합 체계를 제안합니다. ID/OOD 일반화와 비정상성 설정을 생성적 상호작용 관점에서 재정의하여 에이전트와 환경 주도의 변화를 구분합니다.

핵심 포인트

  • RL 내 분포 변화의 인과적 기원을 분류하는 통합 체계 개발
  • ID/OOD 일반화와 비정상성 설정을 구조적 변화로 통합
  • 에이전트 주도 및 환경 주도 분포 변화의 구분
  • 변화 시점 경계에 따른 명시적/암묵적/하이브리드 변화 특징화
  • 분포 변화 하에서의 강건성 분석을 위한 평가 프레임워크 도입

강화학습 (Reinforcement Learning, RL) 시스템은 운영 조건이 이전에 마주했던 조건과 다를 때 성능이 저하되는 경우가 많으며, 이는 기저의 데이터 생성 과정에서 발생하는 분포 변화 (Distributional Shifts)를 반영합니다. 이러한 변화는 분포 내 (In-Distribution, ID) 및 분포 외 (Out-of-Distribution, OOD) 일반화에서와 같이 훈련과 평가 사이에 발생할 수도 있고, 환경 역학 (Environment Dynamics)이 시간에 따라 진화하는 비정상성 (Non-stationary) 설정 내에서 발생할 수도 있습니다. 그러나 이러한 관점들 사이의 공식적인 관계는 여전히 불분명하며, 기존 연구들은 에이전트-환경 상호작용 내에서 변화의 인과적 기원보다는 완화 (Mitigation)에 주로 집중하고 있습니다. 본 연구는 RL에서의 분포 변화의 원천을 특징짓고 ID/OOD 일반화와 비정상성 설정을 연결하는 통합된 인과적 기원 분류 체계 (Unified Causal-Origin Taxonomy)를 개발합니다. 우리는 생성적 상호작용 과정 (Generative Interaction Process)의 관점에서 분포 변화를 재정의함으로써, 지도 학습 (Supervised Learning)의 고전적인 데이터셋 변화 (Dataset-shift) 원칙을 RL로 전이합니다. 부분 관측 마르코프 결정 과정 (Partially Observable Markov Decision Process, POMDP)을 사용하여, 우리는 상호작용을 상태 분포 (State Distribution), 관측 과정 (Observation Process), 정책 (Policy), 보상 (Reward), 전이 역학 (Transition Dynamics) 및 변화 시점 경계 (Shifted-time Boundary)를 포함하는 구조적 구성 요소로 분해합니다. 제안된 분류 체계는 내부적이고 에이전트 주도적인 (Internal, Agent-driven) 분포 변화와 외부적이고 환경 주도적인 (External, Environment-driven) 분포 변화를 구분합니다. 변화 시점 경계 관점은 명시적 (Explicit), 암묵적 (Implicit) 및 하이브리드 (Hybrid) 변화를 더욱 상세히 특징짓습니다. 이 공식화는 ID/OOD 일반화와 비정상성을 기저 과정의 구조적 변화로 통합합니다. 또한 우리는 성능 저하 및 회복 지표를 통해 변화의 영향과 적응을 측정하기 위한 평가 프레임워크를 도입합니다. 분포 변화를 RL의 인과적 기원 구조에 근거함으로써, 본 연구는 분포 변화 하에서의 강건성 (Robustness)에 대한 체계적인 분석을 지원합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0