기하학적 일관성을 위한 정량적 비디오 월드 모델 평가
요약
본 논문은 생성형 비디오 모델의 핵심 과제인 물리적 타당성 및 기하학적 일관성을 정량적으로 평가하기 위한 새로운 프레임워크 PDI-Bench를 제안합니다. 기존의 주관적이거나 진단 능력이 부족했던 평가 방식과 달리, PDI는 세그멘테이션 및 포인트 트래킹을 통해 객체 중심 관측치를 얻고 이를 3D 월드 공간 좌표로 변환하여 기하학적 실패를 측정합니다. 이 프레임워크는 스케일-깊이 정렬, 3D 움직임 일관성, 3D 구조적 강성 세 가지 차원의 투영 기하학 잔차를 계산하며, 이를 통해 기존 지표로는 포착하기 어려웠던 물리적으로 근거 있는 실패 모드를 진단할 수 있습니다.
핵심 포인트
- PDI-Bench는 생성형 비디오 모델의 기하학적 일관성을 정량적으로 평가하는 새로운 프레임워크이다.
- 평가는 세그멘테이션 및 포인트 트래킹을 통해 객체 중심 관측치를 얻고, 이를 3D 월드 공간 좌표로 변환하여 이루어진다.
- PDI는 스케일-깊이 정렬, 3D 움직임 일관성, 3D 구조적 강성 세 가지 핵심 실패 차원을 측정한다.
- 제안된 PDI 지표는 기존의 일반적인 지각적 지표로는 포착하기 어려운 물리적으로 근거 있는 오류를 진단하는 데 효과적이다.
생성형 비디오 모델 (Generative video models)은 암묵적 월드 모델 (implicit world models)로서 점점 더 많이 연구되고 있지만, 이들이 물리적으로 타당한 3D 구조와 움직임을 생성하는지 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 대부분의 비디오 평가 파이프라인은 인간의 판단이나 학습된 채점자 (learned graders)에 크게 의존하며, 이는 주관적일 수 있고 기하학적 실패 (geometric failures)에 대해 진단 능력이 약할 수 있습니다. 우리는 생성된 비디오의 기하학적 일관성 (geometric coherence)을 감사하기 위한 정량적 프레임워크인 PDI-Bench (Perspective Distortion Index)를 소개합니다. 생성된 클립이 주어지면, 우리는 세그멘테이션 (segmentation) 및 포인트 트래킹 (point tracking) (예: SAM 2, MegaSaM, CoTracker3)을 통해 객체 중심의 관측치를 얻고, 이를 단안 재구성 (monocular reconstruction)을 통해 3D 월드 공간 좌표 (3D world-space coordinates)로 변환하며, 세 가지 실패 차원인 스케일-깊이 정렬 (scale-depth alignment), 3D 움직임 일관성 (3D motion consistency), 3D 구조적 강성 (3D structural rigidity)을 포착하는 투영 기하학 잔차 (projective-geometry residuals) 세트를 계산합니다. 체계적인 평가를 지원하기 위해, 우리는 이러한 기하학적 제약 조건을 테스트하도록 설계된 다양한 시나리오를 포함하는 PDI-Dataset을 구축합니다. 최첨단 (state-of-the-art) 비디오 생성기들을 대상으로 한 실험에서, PDI는 일반적인 지각적 지표 (perceptual metrics)로는 포착되지 않는 일관된 기하학 특화 실패 모드 (geometry-specific failure modes)를 드러내며, 물리적으로 근거가 있는 비디오 생성 및 물리적 월드 모델 (physical world model)을 향한 진전을 위한 진단 신호를 제공합니다. 우리의 코드와 데이터셋은 https://pdi-bench.github.io/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기