프리미티브가 아닌 객체로서의 장면: 포즈가 지정되지 않은 뷰로부터의 인스턴스 구조화된 3D 토큰화 (Instance-Structured 3D
요약
포즈가 지정되지 않은 다중 뷰 이미지로부터 장면을 인스턴스 구조화된 3D 토큰 그룹으로 직접 분해하는 피드포워드 프레임워크를 제안합니다. 객체 중심의 토큰화를 통해 재구성, 세그멘테이션, 조작이 용이한 컴팩트한 표현 방식을 제공합니다.
핵심 포인트
- 인스턴스 토큰과 앵커 토큰을 활용한 2단계 인수분해 방식 제안
- 3D 주석 없이 미분 가능한 렌더링을 통한 학습 가능
- 기존 베이스라인 대비 우수한 클래스 불가지론적 세그멘테이션 성능
- 객체 단위의 장면 편집 및 효율적인 오픈 보캐블러리 3D 검색 지원
3D 장면은 그것을 구성하는 프리미티브 (primitives)가 아니라 객체 (objects)를 통해 이해됩니다. 그러나 피드포워드 (feed-forward) 재구성 방법들은 밀집되고 구조화되지 않은 포인트 (points) 또는 가우시안 (Gaussians) 집합을 출력하며, 객체 수준의 구조는 사후에 복구되도록 남겨둡니다. 우리는 포즈가 지정되지 않은 다중 뷰 이미지 (unposed multi-view images)로부터 장면을 인스턴스 구조화된 3D 토큰 그룹 (instance-structured 3D token groups)으로 직접 분해하는 피드포워드 프레임워크를 제안합니다. 이는 재구성 (reconstruction), 세그멘테이션 (segmentation), 그리고 조작 (manipulation)이 모두 뒤따를 수 있는 컴팩트한 객체 중심 단위입니다. 각 토큰 그룹은 엔티티 수준의 정체성을 포착하는 인스턴스 토큰 (instance token)과 국소적 기하학 (local geometry) 및 외관 (appearance)을 인코딩하는 앵커 토큰 (anchor tokens)을 쌍으로 구성하며, 이는 일련의 3D 가우시안 (3D Gaussians)으로 디코딩됩니다. 이러한 2단계 인수분해 (two-level factorization)는 객체 정체성을 국소적 외관으로부터 분리하여, 객체 인스턴스를 파생된 결과물이 아닌 표현 (representation)의 네이티브 인터페이스로 만듭니다. 토큰 그룹은 공동 재구성 및 세그멘테이션 감독 (joint reconstruction and segmentation supervision)을 포함하는 미분 가능한 렌더링 (differentiable rendering)을 통해 학습되며, 3D 주석 (3D annotations)을 필요로 하지 않습니다. 우리의 피드포워드 모델은 새로운 뷰 합성 (novel view synthesis)에서 경쟁력을 유지하면서도, 클래스 불가지론적 (class-agnostic) 인스턴스 세그멘테이션에서 장면별 최적화 베이스라인을 능가합니다. 이러한 지표를 넘어, 동일한 토큰 그룹은 객체 그룹을 조작함으로써 객체를 제거, 이동 또는 삽입하는 인스턴스 수준의 장면 편집 (instance-level scene editing)뿐만 아니라, 검색 복잡도가 프리미티브가 아닌 인스턴스 수에 따라 확장되는 효율적인 오픈 보캐블러리 (open-vocabulary) 3D 인스턴스 검색을 직접적으로 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기