DVD-JEPA: 오픈 소스 기반의 완전 재현 가능한 JEPA 월드 모델
요약
DVD-JEPA는 픽셀 예측 대신 미래의 표현(representation)을 예측하는 JEPA 아키텍처를 구현한 오픈 소스 월드 모델 연구입니다. 단순한 DVD 로고 움직임을 통해 세계 모델의 학습, 비디오 렌더링, 이상 탐지 능력을 성공적으로 증명했습니다.
핵심 포인트
- 픽셀 단위 예측 대신 잠재 공간의 표현을 예측하여 효율성 극대화
- 학습된 잠재 공간을 통해 로고의 정확한 좌표 복구 가능
- 디코더 결합 시 미래 프레임 비디오를 렌더링하는 '꿈 꾸는' 능력 확인
- 예측 오차를 활용한 높은 정확도의 이상 탐지(Anomaly Detection) 성능
- JavaScript로 구현되어 브라우저 클라이언트 측에서 실행 가능
현재 paperswithcode.co의 "이상 탐지 (Anomaly Detection)" 카테고리에서 트렌드가 되고 있는 논문은 DVD-JEPA입니다.
https://i.redd.it/r6fd8n3d4f8h1.gif
짧은 요약은 다음과 같습니다:
비디오로부터 월드 모델 (world model)을 학습하려는 대부분의 시도는 다음 프레임을 픽셀 단위로 예측하려 하며, 근본적으로 예측 불가능한 세부 사항들에 매몰됩니다. JEPA (Joint-Embedding Predictive Architecture, LeCun 2022)는 다른 방식을 택합니다. 픽셀이 아닌 미래의 표현 (representation)을 예측하고, 인코더 (encoder)가 예측할 수 없는 것은 무엇이든 버리도록 하는 것입니다.
DVD-JEPA는 우리가 구축할 수 있는 그 아이디어에 대한 가장 작고 정직한 시연입니다. "세계"는 16×16 박스 안에서 튀어 다니는 DVD 로고입니다. 컨텍스트 인코더 (context encoder), EMA 타겟 인코더 (EMA target encoder), 그리고 잠재 예측기 (latent predictor)가 레이블 없이, 그리고 디코더 (decoder) 없이 32차원 표현 공간에서 다음 관측치를 예측하도록 학습됩니다. 그런 다음 우리는 세 가지를 보여줍니다:
- 그것은 세계를 학습했습니다. 선형 프로브 (linear probe)를 사용하면 좌표를 제공받지 않았음에도 불구하고, 동결된(frozen) 32차원 잠재 공간(latent)으로부터 로고의 정확한 (y, x) 위치를 0.73 px 이내의 오차로 복구할 수 있습니다.
- 그것은 꿈을 꿀 수 있습니다 (디코더를 추가하면). 동결된 잠재 공간에 선택적인 디코더를 결합하고 예측기를 앞으로 진행시키면: 잠재 드리프트 (latent drift)가 발생하기 전까지 약 20단계 동안 벽 반사를 포함하여 튀어 오르는 동작의 정확한 미래 프레임 비디오를 렌더링합니다.
- 그것은 유용합니다. 이를 1단계 예측 모니터로 실행하면, 예측 오차가 이상 신호 (anomaly signal)가 됩니다: 순간 이동을 주입하면 정확한 프레임에서 베이스라인 대비 88배 이상의 급격한 스파이크가 발생합니다.
이 모든 것은 브라우저의 클라이언트 측에서 실행됩니다 — 학습된 MLP들은 약 40줄의 JavaScript로 재구현되었습니다. 이것은 일종의 농담 같기도 하지만, I-JEPA, V-JEPA, 그리고 V-JEPA 2의 기반이 되는 아키텍처를 정확하고 작동하는 인스턴스로 구현한 것입니다.
논문, HF 모델, 그리고 프로젝트 페이지는 여기에서 찾을 수 있습니다: https://paperswithcode.co/paper/98361
/u/NielsRogge 에 의해 r/MachineLearning 에 제출됨
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기