arXiv논문2026. 06. 05. 13:25

물리학의 보이지 않는 손: 비디오 확산 모델(Video Diffusion Models)이 보여주는 것보다 더 많은 것을 알고 있을 때

요약

비디오 확산 모델이 단순한 패턴 재현을 넘어 물리적 구조를 내부적으로 인코딩하는지 연구합니다. 연구 결과, 확산 트랜스포머의 중간 상태에서 물리적 타당성을 높은 정확도로 디코딩할 수 있음을 확인했습니다.

핵심 포인트

비디오 확산 모델이 잠재적 세계 시뮬레이터 역할을 할 가능성 제시
확산 트랜스포머 내부 상태에서 물리적 특성 선형 디코딩 가능
V-JEPA 및 VideoMAE 등 기존 표현 학습 모델보다 높은 성능 기록
물리적 표현이 생성적 디노이징 과정의 부산물로 발생함을 시사

현대의 비디오 확산 모델(Video Diffusion Models)은 점점 더 사실적이고 시간적으로 일관된(temporally coherent) 비디오를 생성하며, 이는 이 모델들을 잠재적인 세계 시뮬레이터(world simulators)로 활용하려는 동기를 부여합니다. 하지만 이러한 모델들이 내부적으로 물리적 구조를 인코딩(encode)하고 있는지, 아니면 단순히 학습 과정에서 본 움직임 패턴(motion patterns)을 재현하는 것인지는 여전히 불분명합니다. 우리는 물리적 타당성(physical plausibility)이 알려진 실제 비디오에 대응하는 잠재 궤적(latent trajectories)을 따라 비디오 확산 모델을 조사함으로써 이 문제를 연구합니다. 이러한 궤적을 얻기 위해, 우리는 깨끗한 비디오 잠재 변수(video latent)로부터 노이즈까지 학습된 속도장(velocity field)을 역방향으로 통합함으로써 결정론적 샘플링(deterministic sampling) 과정을 근사적으로 역전(invert)시켜, 모델의 중간 상태(intermediate states)와 어텐션 맵(attention maps)에 접근합니다. 이렇게 복구된 궤적을 사용하여, 우리는 IntPhys 및 InfLevel 전반에 걸쳐 확산 트랜스포머(diffusion transformer) 상태로부터 물리적 타당성을 선형적으로 디코딩(linearly decodable)할 수 있음을 보여주며, 평균 약 81.27%의 정확도에 도달하여 V-JEPA 및 VideoMAE와 같은 전용 표현 학습(representation-learning) 베이스라인을 능가합니다. 놀랍게도, 이 신호는 VAE 잠재 입력(VAE latent input)에는 존재하지 않으며, 모델이 자기 지도 방식의 예측 목적 함수(self-supervised predictive objective)로 학습되지 않았음에도 불구하고 디노이징 트랜스포머(denoising transformer) 내부에서 나타납니다. 이러한 발견은 물리적으로 의미 있는 표현(physically meaningful representations)이 생성적 디노이징(generative denoising)의 부산물로서 발생할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

물리학의 보이지 않는 손: 비디오 확산 모델(Video Diffusion Models)이 보여주는 것보다 더 많은 것을 알고 있을 때

요약

핵심 포인트

댓글