Native3D: 통합된 메쉬-텍스처 모델링 및 시맨틱 정렬을 통한 엔드투엔드(End-to-End) 3D 장면 생성
요약
Native3D는 2D 중간 표현을 거치지 않는 최초의 엔드투엔드 3D 장면 생성 프레임워크입니다. Transformer 기반의 통합 메쉬-텍스처 표현과 3D REPA Loss를 통해 기하학적 왜곡을 방지하고 시각적 일관성을 높였습니다.
핵심 포인트
- 2D 도메인 변환 없이 직접 3D 장면을 생성하는 엔드투엔드 방식
- Transformer 기반의 통합 메쉬-텍스처 결합 표현 설계
- 3D REPA Loss를 통한 기하학적 및 텍스처 충실도 향상
- 기존 방식 대비 높은 생성 품질과 편집 유연성 입증
본 논문은 2D 중간 표현(intermediate representations)을 완전히 우회하는 최초의 엔드투엔드(End-to-End) 3D 장면 생성 프레임워크인 Native3D를 제시합니다. 기존의 방식들은 사전 학습된 확산 모델(diffusion models)을 활용하기 위해 일반적으로 3D 표현을 2D 도메인에 맞게 조정해야 하며, 이는 기하학적 구조 왜곡(geometric structural distortion) 및 텍스처 디테일 저하(texture detail degradation)를 포함한 도메인 적응(domain adaptation) 문제를 필연적으로 야기합니다. 이러한 한계를 해결하기 위해, 우리는 Transformer 기반의 장면 인코더(scene encoder)를 통해 기하학적 구조와 텍스처 특징을 동시에 모델링하는 통합된 메쉬-텍스처 결합 표현(unified mesh-texture joint representation)을 설계하였으며, 이를 통해 장면 내 객체들 간의 공간적 관계와 시각적 일관성을 효과적으로 유지합니다. 나아가, 우리는 잠재 공간(latent space) 내에서 다층적 시맨틱 표현(multi-level semantic representations)을 정렬하기 위해 개선된 대조 학습(contrastive learning) 메커니즘을 사용하는 3D 표현 정렬 손실(3D Representation Alignment Loss, 3D REPA Loss)을 제안하며, 이는 기하학적 및 텍스처 충실도(fidelity)를 크게 향상시킵니다. 실험 결과, Native3D는 생성 품질과 편집 유연성 모두에서 기존 방법들을 능가하며, 3D 장면 편집을 위한 새로운 솔루션을 제공함을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기