DVD: 3D 생성을 위한 이산 복셀 확산 (Discrete Voxel Diffusion for 3D Generation and Editing)
요약
본 논문은 3D 생성 및 편집 파이프라인에 사용되는 이산 확산 프레임워크인 Discrete Voxel Diffusion (DVD)를 소개합니다. DVD는 복셀 점유율을 네이티브 이산 변수로 처리하여, 연속-이산 임계값 처리를 우회하고 효율적인 3D 스캐폴드 생성 및 편집 기능을 제공합니다. 또한, 예측 엔트로피를 활용한 불확실성 측정과 경량 미세 조정 전략을 통해 모델의 해석 가능성과 실용성을 높였습니다.
핵심 포인트
- DVD는 희소 복셀(sparse voxels) 기반 3D 생성 및 편집에 특화된 이산 확산 프레임워크입니다.
- 복셀 점유율을 네이티브 이산 변수로 다루어, 연속-이산 임계값 처리의 어려움을 해결했습니다.
- 예측 엔트로피를 불확실성 측정 지표로 활용하여 모호한 복셀 영역 식별 및 품질 평가에 사용합니다.
- 블록 구조 섭동 패턴을 이용한 경량 미세 조정 전략으로, 단일 라운드 내에서 효율적인 인페인팅 및 편집이 가능합니다.
저희는 SLat (Structured LATent) 기반의 3D 생성 파이프라인을 위해 희소 복셀(sparse voxels)을 생성, 평가 및 편집하는 데 사용되는 이산 확산 프레임워크인 Discrete Voxel Diffusion (DVD)을 소개합니다. 비록 이산 확산이 이미지와 같은 생성 분야에서 연속 확산을 완전히 대체하지는 못했지만, DVD가 희소 복셀 스캐폴드(scaffolds)를 위한 효과적인 첫 단계 사전 분포(first-stage prior)가 될 수 있음을 보여줍니다. 복셀 점유율을 네이티브 이산 변수(native discrete variable)로 취급함으로써, DVD는 연속-이산 임계값 처리(continuous-to-discrete thresholding)를 피하고 복셀 생성, 불확실성 추정 및 편집을 위한 간단한 프레임워크를 제공합니다. 품질 향상 외에도, DVD는 명시적인 범주형 모델링(explicit categorical modeling)을 통해 더 해석 가능한 생성 역학(generation dynamics)을 제공합니다. 나아가, 저희는 예측 엔트로피(predictive entropy)를 강력한 불확실성 측정 지표로 활용하여 모호한 복셀 영역과 복잡한 샘플을 식별하고, 이를 데이터 필터링 및 품질 평가와 같은 작업에 용이하게 합니다. 마지막으로, 블록 구조의 섭동 패턴(block-structured perturbation patterns)을 사용한 경량 미세 조정 전략을 제안합니다. 이 접근 방식은 모델이 단일 샘플링 라운드 내에서 복셀을 인페인팅하고 편집할 수 있도록 하며, 무시할 만한 보조 계산과 추가적인 모델 평가가 필요하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기