VoxScene: 실내 장면 배치를 위한 앵커 조건부 복셀 확산 (Anchor-Conditioned Voxel Diffusion)
요약
VoxScene은 실내 장면 배치를 위해 앵커 조건부 복셀 확산(anchor-conditioned voxel diffusion)을 사용하는 새로운 프레임워크입니다. 기존의 경계 상자 기반 방식이 가진 물리적 충돌 문제를 해결하기 위해 객체 중심의 복셀 표현을 도입하여, 복잡한 환경에서도 충돌 없는 정교한 배치를 가능하게 합니다.
핵심 포인트
- 객체 중심의 복셀 표현을 통해 기존 레이아웃 생성 방식의 기하학적 한계 극복
- 이산적 복셀의 상호 배타적 특성을 활용하여 공간적 모호성 제거 및 물리적 충돌 방지
- 사전 앵커와 로컬 컨텍스트를 조건으로 하여 순차적으로 볼륨 점유를 합성
- 기존 레이아웃 플래너 대비 높은 물리적 타당성과 형태적 다양성 확보
- 합성된 복셀 그리드를 다운스트림 자산 검색을 위한 기하학적 쿼리로 활용 가능
우리는 3D 장면 합성 (3D scene synthesis)에 맞춤화된 새로운 앵커 조건부 복셀 확산 (anchor-conditioned voxel diffusion) 프레임워크인 VoxScene을 제시합니다. 현재의 데이터 기반 레이아웃 생성 (layout generation) 기술은 일반적으로 경계 상자 프록시 (bounding proxies) 또는 암시적 표현 (implicit representations)에 의존하며, 이는 볼륨 구조 (volumetric structures)를 간과합니다. 이러한 기하학적 무지 (geometric blindness)는 특히 밀집된 환경에서 심각한 물리적 충돌 (physical collisions)과 구조적 엉킴 (structural entanglement)을 필연적으로 초래합니다. 이러한 한계를 극복하기 위해, 우리는 패러다임을 명시적인 객체 중심 복셀 표현 (object-centric voxel representation)으로 전환합니다. 우리의 파이프라인 (pipeline)은 사전 앵커 (prior anchors) 및 로컬 컨텍스트 (local context)를 조건으로 하여 이산적 볼륨 점유 (discrete volumetric occupancies)를 순차적으로 합성합니다. 이산적 복셀 (discrete voxels)의 상호 배타적 특성을 활용함으로써, 우리의 접근 방식은 공간적 모호성 (spatial ambiguities)을 제거하고 매우 복잡한 환경에서도 충돌 없는 배치 (collision-free arrangements)를 보장합니다. 또한, 합성된 고충실도 복셀 그리드 (high-fidelity voxel grids)는 다운스트림 자산 검색 (downstream asset retrieval)을 위한 판별적 기하학적 쿼리 (discriminative geometric queries) 역할을 합니다. 광범위한 실험을 통해 우리 방법의 범용성을 입증하였으며, 기존의 레이아웃 플래너 (layout planners)와 비교하여 최첨단 (state-of-the-art) 수준의 물리적 타당성 (physical plausibility)을 달성하고 형태적 다양성 (shape diversity)을 확보했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기