JEPAs에서의 등방성(Isotropy)을 넘어: Hamiltonian 기하학 및 Symplectic 예측
요약
본 논문은 기존 JEPA(Joint-Embedding Predictive Architecture)가 사용하는 등방성 가우시안 정규화가 구조화된 다운스트림 기하학을 반영하지 못하는 한계를 지적합니다. 이를 해결하기 위해 각 뷰를 위상 공간 상태로 인코딩하고 Hamiltonian leapfrog 맵을 통해 뷰 간 전이를 예측하는 HamJEPA를 제안합니다. 실험 결과, HamJEPA는 CIFAR-100 및 ImageNet-100 데이터셋에서 기존 SIGReg 대비 kNN 및 선형 프로브 성능을 크게 향상시켰습니다.
핵심 포인트
- 기존 JEPA의 유클리드 등방성 가정은 구조화된 다운스트림 기하학에 대해 비용을 발생시키며 예측 결합을 식별하지 못함
- HamJEPA는 Hamiltonian 기하학을 도입하여 각 뷰를 위상 공간 상태(q, p)로 인코딩하고 심플렉틱 결합을 통해 뷰 간 전이를 예측함
- 비등방성 스케일과 스펙트럼 하한을 적용하여 표현 붕괴(collapse)를 방지함
- CIFAR-100 및 ImageNet-100 벤치마크에서 kNN 및 선형 프로브 성능의 유의미한 향상을 입증함
JEPAs는 종종 단일 뷰 임베딩 (one-view embeddings)을 등방성 가우시안 (isotropic Gaussian)으로 정규화하며, 이는 표현 (representation)에 유클리드 대칭성 (Euclidean symmetry)을 암묵적으로 주입합니다. 우리는 이것이 단순히 무해한 기본 설정이 아님을 보여줍니다. 알려진 구조화된 다운스트림 기하학 (downstream geometry) $H o0$에 대해, Hamiltonian 에너지 예산 하에서의 미니맥스 (minimax) 및 최대 엔트로피 (maximum-entropy) 공분산 (covariance)은 $(c/d)H^{-1}$이며, 유클리드 등방성 (Euclidean isotropy)은 등방성에 대한 폐쇄형 비용 (closed-form price)을 발생시킵니다. 더 중요한 것은, 다운스트림 기하학이 알려지지 않았을 때, 기하학에 독립적인 고정된 주변 목표 (fixed marginal target)는 정형화될 수 없다는 점입니다. 즉, 모든 고정된 공분산 형태는 어떤 구조화된 기하학에 대해서는 최대로 어긋날 수 있습니다. 우리는 더 나아가 오라클 단일 뷰 주변 분포 (oracle one-view marginals)조차 JEPA의 뷰 간 예측 결합 (view-to-view predictive coupling)을 식별하지 못함을 보여줍니다. 이러한 결과는 JEPAs의 구조적 편향 (structural bias)이 고정된 인코더 주변 분포 (fixed encoder marginal)가 아닌 뷰 간 결합 (cross-view coupling)에 반영되어야 함을 시사합니다. 우리는 각 뷰를 위상 공간 상태 (phase-space state) $(q,p)$로 인코딩하고, 학습된 Hamiltonian leapfrog 맵을 통해 뷰 간 전이를 예측하며, 비등방성 스케일 (non-isotropic scale)과 스펙트럼 하한 (spectral floors)을 통해 붕괴를 방지하는 extbf{HamJEPA}를 통해 이 원칙을 구현합니다. 의도적으로 헤드리스 토큰 프로토콜 (headless token protocol)을 사용했을 때, HamJEPA는 CIFAR-100 데이터셋에서 30 에포크(epochs) 기준 SIGReg 대비 kNN@20은 $+4.89$, 선형 프로브 (linear-probe)는 $+3.52$ 포인트 향상되었으며, 80 에포크 기준으로는 kNN@20 $+6.45$, 선형 프로브 $+10.64$ 포인트 향상되었습니다. 한편, 일치하는 MLP 예측기 제거 실험 (ablation)을 통해 심플렉틱 결합 (symplectic coupling)이 이웃 기하학 (neighborhood-geometry) 이득을 이끄는 핵심 요소임을 보여줍니다. ImageNet-100에서 HamJEPA-$q$는 45 에포크 기준 kNN@20 $+4.82$, 선형 프로브 $+7.52$ 포인트 향상되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기