Subspace-Decomposed JEPAs: 잠재 세계 모델(Latent World Models)에서 진행 과정(Progression)과
요약
SD-JEPA는 JEPA 잠재 공간을 진행(progression)과 콘텐츠(content)를 담당하는 두 개의 직교하는 부분 공간으로 분리하는 새로운 구조를 제안합니다. 이를 통해 잠재 세계 모델 내에서 작업의 진행 과정을 명확히 인코딩하며, 기존 LeWM 모델보다 뛰어난 제어 성능과 장면 인식 능력을 보여줍니다.
핵심 포인트
- 잠재 공간을 진행과 콘텐츠를 위한 직교 부분 공간으로 분리
- 코사인 마진 트리플렛 손실을 통한 저차원 진행 부분 공간 형성
- 기존 LeWM 대비 제어 벤치마크 및 Push-T 작업 성능 개선
- 1차원 각도 좌표를 통해 작업 진행 및 의미론적 이벤트 국지화 가능
Joint-Embedding Predictive Architectures (JEPAs)는 미래의 임베딩 (embeddings)을 예측함으로써 압축된 잠재 세계 모델 (latent world models)을 학습하지만, 잠재 공간 (latent)의 특정 좌표가 작업 진행 과정 (task progression)을 인코딩하도록 지정되어 있지는 않습니다. 우리는 JEPA 잠재 공간을 서로 다른 역할을 가진 두 개의 직교하는 부분 공간 (orthogonal subspaces)으로 나눕니다: 코사인 마진 트리플렛 손실 (cosine-margin triplet loss)에 의해 형성되는 저차원 진행 부분 공간 (progression subspace)과, LeWM의 기존 SIGReg 목적 함수에 의해 규제되는 고차원 콘텐츠 부분 공간 (content subspace)입니다. 우리는 두 가지 안티-콜랩스 (anti-collapse) 힘이 서로 분리된 좌표에 작용하여, 동일한 차원에서 경쟁하는 대신 가산적으로 결합됨을 증명합니다. 우리의 방법인 SD-JEPA는 동일한 연산량 (matched compute) 조건에서 대부분의 제어 벤치마크 (control benchmarks)에 대해 LeWM 베이스라인보다 성능을 개선하며, Push-T 작업에서는 가장 강력한 비-LeWM JEPA 베이스라인을 능가합니다. 부분 공간 제거 실험 (subspace-ablation)을 통해 이러한 분리가 핵심적인 요소임을 확인했습니다. 계획 (planning)을 넘어, 결과물인 1차원 각도 진행 좌표 (1-D angular progression coordinate)는 잠재 공간 상에서 장면 인식 나침반 (scene-aware compass) 역할을 합니다. 이는 작업 진행에 따라 전진하고, 에이전트가 되돌아갈 때 후퇴하며, 제어된 섭동 (perturbations) 하에서 스파이크를 일으키거나 의미론적으로 적절한 새로운 작업 단계 섹터로 재위치합니다. 이는 예측 오차 스칼라 (prediction-error scalars)가 할 수 없는 방식으로 놀람 (surprise)의 순간과 그 의미를 분리합니다. 세 가지 정량적 테스트가 이를 뒷받침합니다: $|Δθ_t|$는 40개의 홀드아웃 큐브 에피소드 (held-out cube episodes)에서 의미론적 이벤트를 국지화할 때 표준 잠재 예측 오차 (standard latent-prediction-error) 놀람보다 최대 +0.18의 통합 AUROC를 상회하며 성능을 보여줍니다 ($\pm 1$-step 허용 오차 범위 내에서 에피소드당 97.5%의 승률). 네 가지 환경 모두에 대한 에피소드 내 선형 프로브 (within-episode linear probe, 환경당 40개 에피소드) 결과, 8차원 진행 부분 공간 (잠재 공간의 4.2%)이 작업 진행 분산 (task-progress variance)의 72-95%를 설명함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기