arXiv논문2026. 06. 19. 10:50

센서리모터 월드 모델 (Sensorimotor World Models): 역역학 (Inverse Dynamics)을 통한 행동을 위한 지각

요약

센서리모터 월드 모델(SMWM)은 역역학 규제화를 통해 행동에 정렬된 잠재 월드 모델을 학습하는 새로운 방법론을 제안합니다. 이를 통해 표현 붕괴를 방지하고, 제어 가능한 환경 정보에 집중하여 안정적인 잠재 상태를 구축합니다.

핵심 포인트

역역학 규제화로 표현 붕괴 방지 및 행동 정렬 유도
복잡한 규제 장치 없이 오프라인 궤적만으로 안정적 학습 가능
제어 불가능한 방해 요소를 제거하고 제어 가능한 자유도에 집중
2D 및 3D 제어 작업에서 경쟁력 있는 계획 성능 입증

행동을 위한 지각 (Perception for action)은 세상에 대한 표현 (representations)이 단순히 시각적 충실도 (visual fidelity)에 의해서만 형성되는 것이 아니라, 행동과의 관련성에 의해 형성되어야 함을 시사합니다. 동시에, 잠재 JEPA 스타일의 월드 모델 (latent JEPA-style world models)은 미래 상태의 예측을 용이하게 하기 위해 고차원 관측값으로부터 압축된 예측 상태 (predictive states)를 학습할 것을 주장하지만, 예측하기 쉬운 잠재 상태 (latent state)를 구축하는 것만이 유일한 목표라면 표현 (representations)이 붕괴 (collapse)될 수 있기 때문에 이러한 모델들을 엔드투엔드 (end-to-end)로 학습시키는 것은 쉽지 않습니다. 우리는 센서리모터 월드 모델 (sensorimotor world model, SMWM)을 소개합니다. 이는 역역학 규제화 (inverse dynamics regularization)를 통해 엔드투엔드 (end-to-end)로 학습되는 잠재 월드 모델 (latent world model)입니다. 이 단일 규제화 장치는 두 가지 문제를 모두 해결합니다. 즉, 표현 붕괴 (representation collapse)를 방지하고 행동에 정렬된 표현 (action-aligned representations)을 유도합니다. 잠재 상태 (latent states)가 전이 (transition)의 기저에 있는 행동에 대한 정보를 보존하도록 강제함으로써, 모델이 제어 불가능한 방해 요소 (uncontrollable distractors)를 버리는 동시에 환경의 제어 가능한 자유도 (controllable degrees of freedom)를 향하도록 편향을 줍니다. 이를 통해 고정된 인코더 (frozen encoders), 지수 이동 평균 (exponential moving averages), 또는 복잡한 잠재 규제화 장치 (complex latent regularizers) 없이도 오프라인의 보상 없는 궤적 (offline, reward-free trajectories)으로부터 학습된 안정적인 잠재 월드 모델 (latent world models)을 얻을 수 있습니다. 실증적으로, SMWM은 압축되고 해석 가능한 잠재 공간 (latent spaces)을 학습하며, 단순한 2D 및 3D 제어 작업 전반에서 경쟁력 있는 계획 (planning) 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

센서리모터 월드 모델 (Sensorimotor World Models): 역역학 (Inverse Dynamics)을 통한 행동을 위한 지각

요약

핵심 포인트

댓글