arXiv논문2026. 05. 18. 20:02

Mind Dreamer: 능동적 잠재 개입을 통한 잠재 매니폴드 상의 상상력 해방

요약

Mind Dreamer(MD)는 모델 기반 강화학습(MBRL)에서 과거 데이터에 의존하여 발생하는 '역사적 결속' 문제를 해결하기 위해 제안된 프레임워크입니다. 능동적 잠재 개입(ALI)을 통해 생성기로부터 초기 상태를 샘플링함으로써 잠재 매니폴드 상의 비연속적인 점프를 유도하고, 이를 통해 인식론적 사각지대를 탐색합니다. 실험 결과, DeepMind Control Suite에서 DreamerV3 대비 희소 보상 작업 기준 최대 8.8배의 성능 향상을 입증했습니다.

핵심 포인트

역사적 결속(Historical Tethering) 문제를 극복하기 위해 능동적 잠재 개입(ALI) 기술 도입
적대적 생성기를 활용하여 물리적으로 타당하면서도 인지적으로 도전적인 잠재 점프 합성
릴레이 가치 함수(RVF)와 릴레이 불확실성 함수(RUF)를 통해 불연속적 상태 간의 신용 할당 문제 해결
이차 할인율($\gamma^2$)을 적용하여 불연속성을 가로지르는 불확실성 전파 공식화
DreamerV3 대비 희소 보상 환경에서 최대 8.8배의 성능 향상 달성

모델 기반 강화학습 (Model-Based Reinforcement Learning, MBRL)은 샘플 효율성을 위해 잠재적 상상 (latent imagination)을 활용하지만, 과거 데이터에 종속되는 '역사적 결속 (Historical Tethering)' 문제로 인해 제약을 받습니다. 즉, 상상이 일반적으로 관찰된 상태로부터 초기화된다는 점입니다. 이는 월드 모델 (world model)의 매니폴드 (manifold) 발견 속도가 정책 (policy)의 희소 보상 (sparse-reward) 최적화 속도보다 빠른 학습 비대칭성을 초래합니다.

본 논문에서는 마르코프 연속성 (Markovian continuity)을 초월하기 위해 능동적 잠재 개입 (Active Latent Intervention, ALI)을 실행하는 프레임워크인 Mind Dreamer (MD)를 제안합니다. MD는 발견 과정을 전역적 릴레이 매니폴드 기대 자유 에너지 (Relay Manifold Expected Free Energy, R-EFE)의 최소화 문제로 재정의합니다. MD는 과거 버퍼 대신 학습된 생성기 (generator)로부터 초기 상태를 샘플링($s_0 ext{ ~ } p_{gen}( ext{·})$)함으로써, 물리적으로는 타당하지만 인지적으로는 도전적인 인식론적 사각지대 (epistemic blind spots)로 비연속적인 잠재 점프 (latent jumps)를 합성하기 위해 적대적 생성기 (adversarial generator)를 활용합니다.

이러한 공간적 단절 사이의 신용 할당 역설 (credit assignment paradox)을 해결하기 위해, 우리는 릴레이 가치 함수 (Relay Value Function, RVF)와 릴레이 불확실성 함수 (Relay Uncertainty Function, RUF)를 도출합니다. 이러한 포텐셜 (potentials)은 합성된 앵커 (anchors)를 반사실적 중간 상태 (counterfactual intermediary states)로 취급하여, 원칙적인 벨만 스타일 (Bellman-style) 공식화를 통해 실용적 및 인식론적 가치를 전파합니다. 특히, 불연속성을 가로지르는 불확실성 전파에는 이차 할인율 (quadratic discount) $\gamma^2$이 필요함을 증명하여 공식적인 인식론적 지평 (epistemic horizon)을 확립했습니다.

이론적으로 MD는 매니폴드의 스펙트럼 간격 (spectral gap)을 확장하여 임계 병목 상태 (critical bottleneck states)에 도달하는 시간 (hitting time)을 줄이는 분산 최소화 중요도 샘플러 (variance-minimizing importance sampler)를 근사합니다. 실험적으로 MD는 DeepMind Control Suite에서 DreamerV3 대비 평균 1.67배의 속도 향상을 달성했으며, 희소 보상 (sparse-reward) 작업에서는 최대 8.8배의 성능 향상을 기록했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mind Dreamer: 능동적 잠재 개입을 통한 잠재 매니폴드 상의 상상력 해방

요약

핵심 포인트

댓글