PixGS: 직접적인 3D Gaussian Splat 생성을 위한 픽셀 공간 확산 모델 (Pixel-Space Diffusion)
요약
PixGS는 2D 생성 모델의 시점 불일치와 복잡한 파이프라인 문제를 해결하기 위해 제안된 단일 단계 픽셀 공간 확산 모델입니다. 3D Gaussian Splatting 속성을 직접 디노이징하여 고품질의 3D 에셋을 빠르고 정밀하게 생성합니다.
핵심 포인트
- 잠재 공간 압축 없이 픽셀 공간에서 직접 3DGS 속성을 디노이징
- 표면 법선, 깊이, 고주파 구조 정보를 통합한 포괄적 감독 전략 도입
- 단일 A100 GPU에서 1초 내외의 빠른 추론 속도 달성
- 기존 다단계 캐스케이드 파이프라인 대비 높은 효율성과 품질 제공
텍스트나 이미지로부터 3D 콘텐츠를 생성하는 최근의 발전은 인상적인 결과들을 달성해 왔으나, 2D 생성기(2D generators)로부터 발생하는 시점 불일치(view inconsistency)와 고품질 3D 데이터의 부족은 여전히 중요한 병목 현상으로 남아 있습니다. 기존의 솔루션들은 일반적으로 대규모로 사전 학습된 텍스트-이미지 잠재 확산 모델(text-to-image latent diffusion models)을 3D Gaussian Splats (3DGS) 생성에 맞게 조정하여 사용합니다. 그러나 이러한 접근 방식은 종종 계산 비용이 많이 들고 확장성이 제한적인 복잡한 캐스케이드 파이프라인(cascade pipelines)을 학습하는 데 의존합니다. 가장 결정적으로, 생성된 3D 에셋의 품질은 각 구성 요소의 역량과 압축된 잠재 공간(latent space)에 의해 본질적으로 제한되며, 이는 디코딩 아티팩트(decoding artifacts)와 누적된 오류로 이어집니다. 이러한 한계를 해결하기 위해, 우리는 PixGS를 제안합니다. 이는 손실이 있는 잠재 압축(lossy latent compression)을 우회하면서도 방대한 2D 생성 사전 지식(generative priors)의 이점을 여전히 누릴 수 있도록 픽셀 공간 확산(pixel-space diffusion)의 최근 발전을 활용하는 고품질 3DGS 생성을 위한 단일 단계(single-stage) 파이프라인입니다. 각 타임스텝(timestep)에서 3D Gaussian 속성을 직접 디노이징(denoising)함으로써, 우리의 방법은 외관(appearance)과 기하학적 구조(geometry) 모두에 대해 정밀한 스플랫 수준(splat-level)의 정규화(regularization)를 가능하게 합니다. 나아가, 우리는 이전 연구들에서 종종 간과되었던 표면 법선(surface normals), 깊이(depth), 그리고 고주파 구조 정보(high-frequency structural information)를 통합하는 포괄적인 감독 전략(supervision strategy)을 도입합니다. 실험을 통해 PixGS는 빠른 추론 속도(단일 A100 GPU에서 1초)를 유지하면서도 현재의 최첨단(state-of-the-art) 방법들을 능가함을 입증하였으며, 다단계 생성 파이프라인에 대한 강력하고 효율적인 대안을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기