arXiv논문2026. 06. 24. 11:14

FLUX3D: 확산 정렬 희소 표현(Diffusion-Aligned Sparse Representation)을 통한 고충실도 3D 가우시안 생성

요약

FLUX3D는 이미지로부터 고충실도 3D 가우시안 스플래팅(3DGS)을 생성하는 새로운 프레임워크입니다. DA-SLAT와 SMDiT 기술을 통해 기존 방식의 표현 및 정렬 병목 현상을 해결하여 시각적 세부 사항을 획기적으로 개선했습니다.

핵심 포인트

DA-SLAT를 통한 3DGS 재구성 충실도 향상
SMDiT와 MARoPE를 활용한 효과적인 2D-3D 교차 모달 정렬
기존 SOTA 방법론 대비 우수한 외관 충실도 입증
희소 복셀 표현 기반의 확장 가능한 이미지-to-3D 생성

희소 복셀 표현(Sparse voxel representation)은 이미지-to-3D 가우시안 스플래팅 (3DGS) 생성을 위한 확장 가능한 기반으로 등장했지만, 현재의 방법들은 두 가지 구조적 병목 현상으로 인해 입력 이미지의 고주파 시각적 세부 사항을 보존하는 데 어려움을 겪고 있습니다. 첫째, 기존 방식들은 의미론적 추상화를 위해 최적화된 판별적 2D 특징(discriminative 2D features)을 채택하여 희소 복셀 잠재 변수(sparse voxel latents)를 구축하는데, 이는 재구성 단서(reconstructive cues)를 억제하고 표현 병목 현상을 유발합니다. 둘째, 생성 단계에서 표준 확산 트랜스포머(diffusion transformers)는 밀집된 2D 이미지 토큰을 희소한 3D 복셀 잠재 변수와 정렬하는 효과적인 메커니즘이 부족하여, 교차 모달 대응(cross-modal correspondence) 병목 현상이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 생성 과정 중 표현 학습(representation learning)과 교차 모달 정렬(cross-modal alignment)을 모두 향상시키는 확장 가능한 이미지-to-3DGS 프레임워크인 FLUX3D를 제안합니다. 우리는 먼저 희소 복셀 기반 3D 표현 학습을 위한 2D 특징 선택을 재검토하고, 확산 정렬 구조적 잠재 변수 (Diffusion-Aligned Structured Latents, DA-SLAT)를 제안하며, 이를 디코더 전용(decoder-only) 아키텍처와 결합하여 3DGS 재구성 충실도를 개선합니다. 또한, 우리는 기하학적 구조에 구애받지 않는 2D-3D 정렬을 달성하기 위해 희소 구조 다중 모달 확산 트랜스포머 (Sparse-structure Multimodal Diffusion Transformer, SMDiT)와 모달 인식 회전 위치 임베딩 (Modal-Aware Rotary Positional Embedding, MARoPE)을 통합한 희소 구조 인식 확산 프레임워크를 설계합니다. 광범위한 벤치마크 실험을 통해 FLUX3D가 외관 충실도(appearance fidelity)에서 상당한 개선을 이루었으며, 고품질 3DGS 에셋 생성에 있어 모든 최첨단 (SOTA) 방법들을 유의미하게 능가함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FLUX3D: 확산 정렬 희소 표현(Diffusion-Aligned Sparse Representation)을 통한 고충실도 3D 가우시안 생성

요약

핵심 포인트

댓글