월드 모델 기반 비디오 생성에서의 물리적 일관성에 대한 참조 없는 평가
요약
월드 모델 기반 비디오 생성의 물리적 일관성을 평가하기 위한 새로운 참조 없는(reference-free) 측정 지표를 제안합니다. DROID-SLAM과 SEA-RAFT를 활용하여 물리적 불일치를 정량화하며, 이를 통해 시뮬레이션과 실제 환경 간의 격차를 줄일 수 있습니다.
핵심 포인트
- 참조 데이터 없이 비디오의 물리적 충실도를 측정하는 새로운 방식 도입
- DROID-SLAM 및 SEA-RAFT를 활용한 물리적 불일치 정량화
- 필터링된 비디오 사용 시 작업 성공률 8% 이상 향상 확인
- 물리적 아티팩트의 발생 시점과 위치를 시각화하는 시공간적 지역화 제공
우리는 생성된 비디오의 물리적 일관성 (physical consistency)을 평가하기 위해, 충실도 (fidelity)를 측정하는 상대적 및 절대적 접근 방식을 결합한 참조 없는 (reference-free) 측정 지표를 소개합니다. WorldGym 또는 WorldEval과 같은 도구들은 비디오 생성을 통해 로봇 시뮬레이션을 가능하게 하지만, 물리적 충실도 (physical fidelity)의 격차로 인해 이러한 환경들이 VLA 모델의 실제 세계 작업 성공률을 정확하게 재현하지 못하는 경우가 많습니다. 비용이 많이 드는 인간 투표 (Elo) 또는 사용할 수 없는 정답 참조 (ground-truth references, FVD)를 요구하는 기존 평가 방법들과 달리, 우리의 접근 방식은 WorldScore에서 영감을 받아 DROID-SLAM 및 SEA-RAFT를 활용하여 물리적 불일치 (physical inconsistencies)를 정량화합니다. 우리의 상대적 일관성 평가를 사용하여 필터링된 비디오는 작업 성공률이 8% 이상 향상되었으며, 이는 시뮬레이션-실제 간 격차 (simulation-to-reality gap)를 효과적으로 좁힙니다. 또한, 우리의 절대적 평가는 시공간적 지역화 (spatio-temporal localization)를 가능하게 하여, 물리적 아티팩트 (physical artifacts)가 언제 어디서 발생하는지에 대한 시각화를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기