arXiv논문2026. 06. 01. 12:51

SuperVoxelGPT: 자기회귀적 형상 생성을 위한 적응형 및 순서화된 3D 토큰화 (Tokenization)

요약

SuperVoxelGPT는 기존 3D 토큰화의 한계를 극복하기 위해 적응형 슈퍼복셀 분할 방식을 제안하는 연구입니다. 기하학적 돌출도를 기반으로 복잡한 영역은 세밀하게, 매끄러운 영역은 크게 분할하여 효율적인 3D 형상 생성을 가능하게 합니다.

핵심 포인트

적응형 슈퍼복셀 토큰화를 통한 3D 생성 효율성 개선
기존 균일 복셀 대비 토큰 시퀀스 길이 12.8%로 단축
이전 방법론 대비 평균 10배 빠른 생성 속도 달성
Saliency-guided Voronoi tessellation을 활용한 형상 적응형 분할

자기회귀적 멀티모달 거대 언어 모델 (MLLMs)은 3D 생성을 가능하게 하지만, 부적절한 3D 토큰화 (Tokenization)로 인해 고해상도 형상 (Shapes)으로 확장하는 데 어려움을 겪고 있습니다. 압축된 집합 기반 표현 (Set-based representations)은 결정론적인 공간적 순서 (Spatial ordering)를 무시하여 모호한 시퀀스 예측을 초래하는 반면, 균일한 (Uniform) 또는 옥트리 (Octree) 기반의 복셀 그리드 (Voxel grids)는 심각한 중복성과 과도하게 긴 시퀀스를 대가로 순서를 유지합니다. 이러한 구조적 트레이드오프 (Trade-off)는 안정적이고 효율적인 자기회귀적 3D 생성을 제한합니다. 본 논문에서는 적응형 및 결정론적으로 순서화된 슈퍼복셀 (Supervoxel) 토큰화를 통해 이러한 갈등을 해결하는 표현 우선 프레임워크인 SuperVoxelGPT를 제안합니다. 프롬프트 (Prompt)가 주어지면, 먼저 거친 기하학적 돌출도 분포 (Geometric saliency distribution)를 예측하고, 돌출도 유도 중심 보로노이 테셀레이션 (Saliency-guided centroidal Voronoi tessellation)을 사용하여 형상 적응형 슈퍼복셀 분할을 구축하며, 복잡한 영역에는 세밀한 셀 (Cells)을, 매끄러운 영역에는 더 큰 셀을 할당합니다. 텍스트와 순서화된 슈퍼복셀 레이아웃 (Layout)을 조건으로 하여, SuperVoxelVAE를 도입하고 사전 학습된 MLLM을 미세 조정 (Fine-tune)하여 슈퍼복셀 토큰을 자기회귀적으로 생성합니다. Trellis-500K에 대한 실험 결과, SuperVoxelGPT는 균일한 복셀 토큰화 (Uniform voxel tokenization) 대비 토큰 시퀀스 길이를 12.8%로 줄이면서도 최첨단 (State-of-the-art) 생성 품질을 달성하였으며, 이전 방법들보다 평균 10배 빠른 속도를 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SuperVoxelGPT: 자기회귀적 형상 생성을 위한 적응형 및 순서화된 3D 토큰화 (Tokenization)

요약

핵심 포인트

댓글