arXiv논문2026. 05. 27. 11:28

DinoComplete: 증류된 의미론적 사전 지식과 상태 공간 모델을 이용한 3D 형상 완성

요약

DinoComplete는 DINO 특징에서 추출한 의미론적 사전 지식과 상태 공간 모델(SSM)을 결합하여 3D 형상을 완성하는 프레임워크입니다. Mamba 모듈을 통해 효율적인 장거리 추론을 수행하며, 기존 방식보다 적은 파라미터와 메모리로도 뛰어난 완성 품질을 보여줍니다.

핵심 포인트

DINO 특징을 활용한 복셀 정렬 의미론적 사전 지식 증류
Mamba 모듈을 통한 효율적인 다중 스케일 복셀 상태 공간 모델링
기존 모델 대비 낮은 메모리 사용량 및 빠른 추론 속도 달성
미학습 카테고리에 대한 강력한 일반화 성능 입증

부분적인 스캔으로부터의 3D 형상 완성 (3D shape completion)은 보지 못한 카테고리와 노이즈가 있는 실제 관측 데이터에 대해 여전히 도전적인 과제로 남아 있으며, 이 경우 기하학적 정보만으로는 누락된 구조를 추론하기에 불충분한 경우가 많습니다. 본 논문에서는 DINO 특징(features)으로부터 증류된 복셀 정렬 의미론적 사전 지식 (voxel-aligned semantic priors)을 통해 기하학적 재구성을 보강하는 결정론적이고 효율적인 형상 완성 프레임워크인 DinoComplete를 제안합니다. 먼저, ShapeNet 데이터와 정렬된 다중 뷰 DINO 특징 볼륨 (multi-view DINO feature volumes)을 구축하고, 불완전한 형상으로부터 직접 조밀한 의미론적 특징 (dense semantic features)을 예측하도록 학생 네트워크 (student network)를 학습시킵니다. 이렇게 예측된 특징들은 기저의 기하학적 구조와 정렬을 유지하면서도 전역적 구조와 부위 인식 의미론적 문맥 (part-aware semantic context)을 포착합니다. 그 다음, 이러한 증류된 특징들을 완성 네트워크 (completion network)에 통합하며, 여기서 기하학적 및 의미론적 복셀 표현 (voxel representations)은 복셀 상태 공간 모델링 (voxel state-space modeling)을 통해 융합됩니다. 해상도를 희생하지 않으면서 효율적인 장거리 추론 (long-range reasoning)을 가능하게 하기 위해, 전체 그리드 및 청크 단위 시퀀스 모델링 (chunk-wise sequence modeling)을 결합하여 융합된 특징을 정교화하는 다중 스케일 복셀 Mamba 모듈을 도입합니다. 보지 못한 ShapeNet 카테고리와 ScanNet 객체에 대한 실험 결과, DinoComplete는 기존의 결정론적 및 생성 기반 완성 방법들보다 더 적은 파라미터를 사용하고, 더 낮은 메모리를 요구하며, 더 빠른 추론을 달성하면서도 더 강력한 완성 품질을 보여주었습니다. 우리의 결과는 시각적 파운데이션 모델 (visual foundation models)로부터 의미론적 사전 지식을 증류하는 것이 3D 형상 완성의 일반화 성능과 강건성 (robustness)을 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DinoComplete: 증류된 의미론적 사전 지식과 상태 공간 모델을 이용한 3D 형상 완성

요약

핵심 포인트

댓글