arXiv논문2026. 05. 15. 20:39

VGGT-Edit: 잔차 필드 예측 (Residual Field Prediction)을 통한 피드포워드 네이티브 3D 장면 편집

요약

VGGT-Edit은 텍스트 조건부 네이티브 3D 장면 편집을 위한 피드포워드 프레임워크입니다. 기존의 2D-리프팅 방식이 가진 공간적 일관성 부족 문제를 해결하기 위해, VGGT-Edit은 깊이 동기화된 텍스트 주입과 잔차 변환 헤드를 사용하여 3D 기하학적 변위를 직접 예측합니다. 이 프레임워크는 높은 충실도와 교차 뷰 일관성을 보장하는 다중 항 목적 함수를 통해, 기존의 편집 방법들보다 월등히 우수한 결과를 보여줍니다.

핵심 포인트

VGGT-Edit은 피드포워드 아키텍처 기반의 네이티브 3D 장면 편집 프레임워크이다.
기존의 2D-리프팅 방식 대신, 깊이 동기화된 텍스트 주입과 잔차 변환 헤드를 사용하여 3D 기하학적 변위를 직접 예측한다.
다중 항 목적 함수와 3D 일치 필터링을 통해 높은 충실도와 교차 뷰 일관성을 확보했다.
새롭게 구축한 DeltaScene 데이터셋은 그라운드 트루스 품질을 보장하며, 모델 학습에 활용된다.

고품질 3D 장면 재구성 (3D scene reconstruction)은 최근 일반화 가능한 피드포워드 (feed-forward) 아키텍처를 향해 발전하며, 단 한 번의 순전파 (forward pass)로 복잡한 환경을 생성할 수 있게 되었습니다. 그러나 정적인 장면 인지 (static scene perception)에서는 강력한 성능을 보임에도 불구하고, 이러한 모델들은 동적인 인간의 지시 사항에 대응하는 데 여전히 한계가 있으며, 이는 상호작용형 애플리케이션에서의 사용을 제한합니다. 기존의 편집 방법들은 일반적으로 개별 뷰 (view)를 독립적으로 편집한 다음 이를 다시 3D 공간으로 들어 올리는 2D-리프팅 (2D-lifting) 전략에 의존합니다. 이러한 간접적인 파이프라인은 2D 편집기가 시점 간 구조를 유지하는 데 필요한 공간적 인식 (spatial awareness)이 부족하기 때문에, 종종 흐릿한 질감과 일관되지 않은 기하학적 구조 (geometry)를 초래합니다.

이러한 한계를 해결하기 위해, 우리는 텍스트 조건부 네이티브 3D 장면 편집을 위한 피드포워드 프레임워크인 VGGT-Edit을 제안합니다. VGGT-Edit은 의미론적 가이드 (semantic guidance)를 백본 (backbone)의 공간적 포즈 (spatial poses)와 정렬하여 안정적인 지시 사항 접지 (instruction grounding)를 보장하는 깊이 동기화 텍스트 주입 (depth-synchronized text injection)을 도입합니다. 이 의미론적 신호는 이후 잔차 변환 헤드 (residual transformation head)에 의해 처리되며, 이는 배경의 안정성을 유지하면서 장면을 변형하기 위해 3D 기하학적 변위 (3D geometric displacements)를 직접 예측합니다. 높은 충실도 (high-fidelity)의 결과를 보장하기 위해, 우리는 기하학적 정확성과 교차 뷰 일관성 (cross-view consistency)을 강제하는 다중 항 목적 함수 (multi-term objective function)로 프레임워크를 감독합니다. 또한, 우리는 그라운드 트루스 (ground-truth) 품질을 보장하기 위해 3D 일치 필터링 (3D agreement filtering)이 포함된 자동화된 파이프라인을 통해 생성된 대규모 데이터셋인 DeltaScene 데이터셋을 구축합니다. 실험 결과, VGGT-Edit은 2D-리프팅 베이스라인을 실질적으로 능가하며, 더 선명한 객체 디테일, 더 강력한 다중 뷰 일관성, 그리고 거의 즉각적인 추론 속도를 생성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

VGGT-Edit: 잔차 필드 예측 (Residual Field Prediction)을 통한 피드포워드 네이티브 3D 장면 편집

요약

핵심 포인트

댓글