본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:53

CIG: 조건부 정보 이득 (Conditional Information Gain)을 통한 탐색

요약

강화학습의 탐색 효율을 높이기 위해 기존의 평생 보상과 에피소드 보상의 한계를 극복한 조건부 정보 이득(CIG) 보상을 제안합니다. CIG는 앙상블 불일치 커널의 로그-행렬식 목적 함수를 활용하여 고차원 상태 공간에서도 확장 가능한 인과적 단계별 보상을 생성합니다. 실험 결과, CIG는 확률적 방해 요소가 존재하는 환경에서도 기존 방법론보다 견고하고 뛰어난 성능을 입증했습니다.

핵심 포인트

  • 기존 평생 보상과 에피소드 보상의 단점(중복성 무시 또는 생애 전체 진행 상황 상실)을 보완하는 새로운 보상 체계 제안
  • 앙상블 불일치 커널과 촐레스키 분해를 활용하여 고차원 상태 공간에서도 계산 가능한 대리 목표(Tractable surrogate) 도출
  • 리플레이 버퍼와 롤아웃 접두사를 동시에 조건화하여 궤적 수준의 정보 이득을 단계별 보상으로 분해
  • MiniGrid 및 OGBench 등 12개 작업에서 확률적 방해 요소에 대한 견고함과 우수한 탐색 성능 확인

강화학습 (Reinforcement Learning)에서 탐색을 위한 내재적 보상 (Intrinsic rewards)은 서로 다른 컨텍스트 (Contexts)에 따라 달라집니다. 평생 보상 (Lifelong rewards)은 각 전이 (Transition)를 누적된 경험과 비교하여 점수를 매기지만, 롤아웃 (Rollout) 내의 중복성은 무시합니다. 에피소드 보상 (Episodic rewards)은 궤적 내 반복을 처벌하지만, 생애 전체의 진행 상황은 버립니다. 하이브리드 방법론은 휴리스틱 가중치 (Heuristic weights)를 통해 두 신호를 결합하거나, 저차원 상태 공간 (Low-dimensional state spaces)을 넘어 확장되지 않는 가우시안 프로세스 역학 (Gaussian-process dynamics)을 요구합니다. 궤적 수준의 정보 이득 (Trajectory-level information gain)은 리플레이 버퍼 (Replay buffer)와 롤아웃 접두사 (Rollout prefix)를 동시에 조건화하는 단계별 항 (Per-step terms)으로 분해되지만, 딥 모델 (Deep models)에서는 다루기 어렵습니다. 우리는 다룰 수 있는 대리 목표 (Tractable surrogate)로서 조건부 정보 이득 (Conditional Information Gain, CIG) 보상을 도출합니다. 이는 앙상블 불일치 커널 (Ensemble disagreement kernel)에 대한 로그-행렬식 (Log-determinant) 목적 함수이며, 이 커널의 촐레스키 분해 (Cholesky factorization)는 고차원 상태 공간 (High-dimensional state spaces)으로 확장 가능하면서도 두 조건 세트를 모두 유지하는 인과적 단계별 보상 (Causal per-step rewards)을 생성합니다. 우리는 롤아웃이 짧고 롤아웃 내 수정 (Within-rollout corrections)이 여전히 거의 탐구되지 않은 모델 기반 (Model-based) 설정에서 CIG를 구현합니다. 이산적 제어 (MiniGrid)와 연속적 제어 (OGBench)를 아우르는 12개의 작업에 대해, 깨끗한 환경과 확률적 방해 요소 (Stochastic-distractor) 환경 모두에서 CIG는 확률적 방해 요소에 대해 견고함을 유지하면서 기존 탐색 방법들을 능가하거나 대등한 성능을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0