World Tracing: 가시 영역을 넘어선 생성적 픽셀 정렬 기하학 (Generative Pixel-Aligned Geometry
요약
World Tracing은 입력 픽셀과 정렬된 3D 포인트를 예측하면서 가려진 영역의 기하학적 구조까지 완성하는 새로운 생성적 표현 방식입니다. WT-DiT 모델을 통해 가시 표면과 가려진 표면을 동시에 재구성하며, 기존의 depth predictor와 image-to-3D 모델을 능가하는 성능을 보여줍니다.
핵심 포인트
- 픽셀과 정렬된 3D 포인트 스택을 통해 가시 및 가려진 표면을 동시에 예측
- WT-DiT(Diffusion Transformer)를 활용한 다층 기하학적 레이어 구현
- 픽셀 공간 플로우 매칭과 혼합 노이즈 스케줄을 통한 정밀한 학습
- 2D-3D 대응 관계 보존으로 텍스트 기반 3D 편집 및 비디오 합성 가능
Image-to-3D 방법론들은 종종 충실도(faithfulness)와 완전성(completeness) 사이에서 절충(trade-off)을 선택합니다. 깊이 추정기(depth estimators)는 입력 픽셀에 고정되어 있지만 가시적인 표면(visible surface)에서 멈추는 반면, image-to-3D 모델들은 완전한 형상을 생성하지만 입력값과 정렬되지 않는 경우가 많습니다. 우리는 관찰된 픽셀과 정렬된 3D 포인트를 예측하는 동시에 가시 표면 너머의 기하학적 구조를 완성하는 생성적 픽셀 정렬 기하학 표현(generative pixel-aligned geometry representation)인 World Tracing을 소개합니다. 각 입력 픽셀에 대해, World Tracing은 카메라 공간(camera-space)의 정렬된 3D 포인트 스택을 예측하며, 여기서 첫 번째 레이어는 가시 표면을 나타내고 후속 레이어들은 가려진 표면(occluded surfaces)과의 전방-후방(front-to-back) 교차점을 나타냅니다. 우리는 이 표현을 world-tracing diffusion transformer인 WT-DiT로 구현하였으며, 이는 여러 기하학적 레이어를 분해된 어텐션(factorized attention)과 글로벌 어텐션(global attention)을 통해 결합된 별도의 디노이징 토큰(denoising tokens)으로 취급합니다. WT-DiT는 픽셀 공간 플로우 매칭(pixel-space flow matching)과 가시 표면 재구성(visible-surface reconstruction) 및 가려진 기하학 생성(occluded-geometry generation) 사이의 균형을 맞추는 혼합 노이즈 스케줄(mixed noise schedule)을 사용하여 학습됩니다. World Tracing은 객체, 장면, 동적 벤치마크 전반에서 가시 표면 재구성과 완전한 기하학 생성 측면에서 강력한 성능을 달성하며, 깊이 예측기(depth predictors)와 image-to-3D 생성기(image-to-3D generators) 모두를 능가합니다. 또한 2D-to-3D 대응 관계(correspondence)를 보존하여, 텍스트 기반 3D 장면 편집, 기하학 조건부 신규 뷰 비디오 합성(geometry-conditioned novel-view video synthesis), 그리고 별도의 학습이 필요 없는 텍스처 메시 생성기(textured-mesh generators)와의 통합을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기