arXiv논문2026. 05. 22. 11:27

호기심을 유지하는 법: 3D 탐사를 위한 에피소드 문맥(Episodic Context) 및 지속적인 세계(Persistent Worlds)

요약

3D 환경 내 장기적 탐사 과제를 해결하기 위해 에피소드 문맥과 지속적인 세계 모델을 결합한 새로운 강화학습 방법을 제안합니다. 온라인 3D 재구성을 통해 공간적 지속성을 확보하고 시퀀스 모델로 에피소드 이력을 유지하여 탐사 효율을 극대화했습니다.

핵심 포인트

에피소드 문맥과 지속적 세계 모델의 결합으로 탐사 성능 향상
온라인 3D 재구성을 통한 공간적 지속성 문제 해결
RGB 관측값 시퀀스 모델을 활용한 에피소드 궤적 유지
HM3D 및 Gibson 환경에서 기존 베이스라인 대비 우수한 성능 입증
다양한 다운스트림 과제에 대한 뛰어난 제로샷 일반화 능력

탐사(Exploration)는 희소한 보상(sparse-reward)이 주어지는 장기적 과제(long-horizon tasks), 특히 3D 환경 내에서 유용한 행동을 학습하기 위한 전제 조건입니다. 호기심 기반 강화학습 (Curiosity-driven reinforcement learning)은 에이전트의 세계 예측 모델과 실제 현실 사이의 불일치에서 파생되는 내재적 보상 (intrinsic rewards)을 통해 이 문제를 해결합니다. 그러나 이러한 내재적 동기 부여를 복잡하고 실사 같은 환경으로 옮기는 것은 여전히 어려운데, 에이전트가 국소 루프 (local loops)에 갇히거나 잊혀진 상태를 다시 방문함으로써 새로운 보상을 받는 현상이 발생할 수 있기 때문입니다. 본 연구에서 우리는 이러한 실패가 공간적 지속성 (spatial persistence)과 에피소드 문맥 (episodic context)의 부족에서 기인한다는 것을 입증합니다. 우리는 효과적인 호기심을 위해서는 지속적이고 지속적으로 업데이트되는 세계 모델이 필요하며, 이와 함께 새로운 영역으로 이동하기 위해 에피소드 궤적 이력 (episodic trajectory history)을 유지하는 에이전트가 결합되어야 함을 보여줍니다. 우리는 온라인 3D 재구성 (online 3D reconstruction)을 지속적인 세계 모델로 사용하여 이를 달성하며, 에이전트 정책은 에피소드 문맥을 유지하기 위해 RGB 관측값에 대한 시퀀스 모델 (sequence model)로 매개변수화됩니다. 이러한 설계는 학습 중에는 효과적인 탐사를 가능하게 하는 동시에, 배포 시에는 에이전트가 오직 RGB 프레임만을 사용하여 탐색할 수 있도록 합니다. HM3D에서 순수하게 호기심을 통해 학습된 우리의 에이전트는 강화학습 (RL) 기반의 능동적 매핑 (active mapping) 베이스라인보다 뛰어난 성능을 보이며, Gibson 및 AI 생성 세계로의 제로샷 (zero-shot) 일반화 성능을 입증했습니다. 우리의 엔드투엔드 (end-to-end) 정책은 사과 따기나 이미지 목표 내비게이션 (image-goal navigation)과 같은 다운스트림 과제에 효율적으로 적응할 수 있으며, 처음부터 학습시킨 (from-scratch) 베이스라인보다 우수한 성능을 나타냅니다. 비디오 결과는 https://recuriosity.github.io/ 에서 확인하실 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

호기심을 유지하는 법: 3D 탐사를 위한 에피소드 문맥(Episodic Context) 및 지속적인 세계(Persistent Worlds)

요약

핵심 포인트

댓글