JEPA 기반 월드 모델을 위한 일반화 이론
요약
JEPA 기반 월드 모델의 이론적 이해를 돕기 위해 최초의 일반화 이론을 제안합니다. JEPA 사전 학습을 스펙트럼 그래프 학습 문제로 공식화하여 사전 학습 오차와 다운스트림 계획 후회 사이의 관계를 규명합니다.
핵심 포인트
- JEPA 사전 학습을 조건부 스펙트럼 그래프 학습 문제로 공식화
- JEPA 목적 함수와 저계수 인수분해 간의 수학적 관계 증명
- 유한 샘플 일반화 경계를 통한 이론적 분석 제공
- 잠재 차원에 따른 근사 오차와 샘플 오차 간의 트레이드오프 규명
Joint Embedding Predictive Architectures (JEPAs)는 입력 수준에서 미래의 관측치를 생성하는 대신 잠재 공간 (latent space)에서 예측 역학 (predictive dynamics)을 학습함으로써, 월드 모델링 (world modeling)을 위한 유망한 패러다임으로 최근 부상했습니다. 이러한 경험적 성공에도 불구하고, JEPA 기반 월드 모델에 대한 이론적 이해는 여전히 제한적입니다. 본 논문에서 우리는 JEPA 기반 월드 모델을 위한 최초의 일반화 이론 (generalization theory)을 개발합니다. 우리는 JEPA 사전 학습 (pretraining)을 조건부 스펙트럼 그래프 학습 (conditional spectral graph learning) 문제로 공식화하고, JEPA 목적 함수 (objective)가 행동 조건부 공생 행렬 (action-conditioned co-occurrence matrix)의 저계수 인수분해 (low-rank factorization)와 동일함을 보여줍니다. 이러한 특성화를 바탕으로, 우리는 JEPA 사전 학습 오차와 다운스트림 계획 후회 (downstream planning regret) 사이의 연결 고리를 구축하여, JEPA 기반 월드 모델에 대한 유한 샘플 일반화 경계 (finite-sample generalization bound)를 도출합니다. 우리의 분석은 잠재 차원 (latent dimension)에 따른 근사 오차 (approximation error)와 샘플 오차 (sample error) 사이의 내재적인 트레이드오프 (trade-off)를 밝혀내며, 입력 수준의 예측 접근 방식과 비교하여 잠재 예측 모델 (latent predictive models)의 장점과 한계에 대한 이론적 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기