arXiv논문2026. 06. 23. 12:07

점유 커버리지 극대화를 통한 강화학습용 보상 없는 사전 학습 (Reward-free Pretraining)

요약

희소 보상 문제를 해결하기 위해 점유 커버리지를 극대화하는 보상 없는 사전 학습 방법론을 제안합니다. ROVER 알고리즘을 통해 월드 모델 기반으로 점유를 추정하며, 다운스트림 태스크에 빠르게 적응하는 탐색 정책을 학습합니다.

핵심 포인트

희소 보상 환경에서의 강화학습 한계 극복
점유 측도(Occupancy measure) 기반의 상태 공간 커버리지 극대화
ROVER 알고리즘을 통한 밀도 및 엔트로피 추정 장애물 우회
전이 가능한 탐색 정책을 통한 멀티태스크 및 메타 학습 지원

희소 보상 (Sparse rewards)은 에이전트가 목표에 도달할 때까지 유익한 신호를 받지 못하기 때문에 강화학습 (Reinforcement Learning)에서 핵심적인 과제를 제기합니다. 내재적 보상 (Intrinsic-reward) 방법론은 참신함 (novelty), 예측 오차 (prediction error), 또는 기술 다양성 (skill diversity)과 같은 비정상적 목적 함수 (non-stationary objectives)를 최적화함으로써 이 문제를 해결하며, 이를 통해 문제에 감독 신호 (supervision signal)를 주입합니다. 이러한 방법들이 효과적이기는 하지만, 대개 외재적 (sparse) 보상을 온라인에서 혹은 저장된 전이 (transitions)의 오프라인 재라벨링 (offline relabeling) 중에 평가할 수 있어야 한다는 요구 조건이 따릅니다. 이러한 제한 사항은 에이전트의 환경과의 상호작용이 대개 보상 없이 이루어지는 멀티태스크 (multi-task), 메타 (meta-), 그리고 지속적 (continual) 강화학습에서 특히 까다로운 문제입니다. 본 연구에서는 다운스트림 태스크 (downstream task) 시점에 희소 보상에 빠르게 적응할 수 있는 전이 가능한 탐색 정책 (transferable exploration policies)을 사전 학습하는 방법을 제시합니다. 우리의 목적 함수는 점유 측도 (occupancy measure)에 대한 상태 공간 (state-space) 커버리지를 극대화하며, 엔트로피 극대화 (entropy maximization) 관점에서 구성될 수 있습니다. 알고리즘 구현체인 ROVER는 RL의 연산자 공식화 (operatorial formulation)에 관한 최근의 발전을 활용하여, 학습된 분해자 (resolvent) 월드 모델 (world model)로 점유를 추정함으로써 밀도 (density) 및 엔트로피 추정과 관련된 일반적인 장애물들을 우회합니다. 또한 ROVER는 탐색되지 않은 영역을 위한 가상

AI 자동 생성 콘텐츠

원문 바로가기

점유 커버리지 극대화를 통한 강화학습용 보상 없는 사전 학습 (Reward-free Pretraining)

요약

핵심 포인트

댓글