arXiv논문2026. 06. 09. 11:52

비디오 파운데이션 모델은 직관적 물리학을 이해하는가? 계층별 프로빙 분석

요약

비디오 파운데이션 모델이 직관적 물리학 정보를 인코딩하는지 계층별 프로빙을 통해 분석한 연구입니다. V-JEPA가 가장 뛰어난 성능을 보였으며, 물리학 정보는 모델의 중간 및 후기 계층에서 가장 잘 나타남을 확인했습니다.

핵심 포인트

V-JEPA가 시간적 역학 모델링에서 가장 강력한 성능을 보임
물리학 정보는 모델의 중간 및 후기 계층에서 가장 접근하기 쉬움
사전 학습 패러다임과 표현의 깊이가 물리학 지식 인코딩에 핵심적임
프레임 순서 변화 시 물리학 관련 성능이 크게 저하됨

우리는 사전 학습된 비디오 파운데이션 모델 (Video Foundation Models)이 고정된 표현 (Frozen Representations) 내에 직관적 물리학 (Intuitive Physics) 정보를 인코딩하고 있는지, 그리고 이 정보가 모델 제품군, 계층 (Layers), 프로브 (Probe) 유형에 따라 어떻게 달라지는지 연구합니다. IntPhys2 및 Minimal Video Pairs (MVP) 데이터셋에 대한 고정 특징 프로빙 (Frozen-feature probing)을 사용하여, 예측적 공동 임베딩 모델 (Predictive Joint-embedding Models, V-JEPA), 마스크 재구성 모델 (Masked Reconstruction Models, VideoMAE), 그리고 확산 기반 비디오 생성기 (Diffusion-based Video Generator, LTX-Video)를 비교합니다. V-JEPA는 벤치마크 전반에 걸쳐 가장 강력한 종합적 결과를 달성했으며, 특히 시간적 역학 (Temporal Dynamics)을 모델링하는 프로브에서 두드백되었습니다. 반면 VideoMAE는 경쟁력 있는 성능을 유지하였고, LTX-Video는 약하지만 무시할 수 없는 신호를 회복했습니다. 계층별 분석 (Layerwise analyses) 결과, 물리학 관련 정보는 초기 계층에서 가장 약하며 중간에서 후기 깊이 (Intermediate-to-late depth)에서 가장 접근하기 쉬워지는 것으로 나타났습니다. 또한 시간적 제어 (Temporal controls) 실험을 통해 프레임 순서를 방해할 경우 성능이 상당히 저하되며, 특히 MVP에서 이러한 경향이 두드러짐을 확인했습니다. 종합적으로, 이러한 결과는 직관적 물리학 지식이 사전 학습된 비디오 표현 내에 신뢰할 수 있게 나타나지만, 그 접근성은 사전 학습 패러다임 (Pretraining Paradigm), 표현의 깊이 (Representational Depth), 그리고 판독 메커니즘 (Readout Mechanism)에 크게 의존함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비디오 파운데이션 모델은 직관적 물리학을 이해하는가? 계층별 프로빙 분석

요약

핵심 포인트

댓글