프리미티브가 아닌 객체로서의 장면: 포즈가 지정되지 않은 뷰로부터의 인스턴스 구조화된 3D 토큰화 (Instance-Structured 3D

3D 장면은 그것을 구성하는 프리미티브 (primitives)가 아니라 객체 (objects)를 통해 이해됩니다. 그러나 피드포워드 (feed-forward) 재구성 방법들은 밀집되고 구조화되지 않은 포인트 (points) 또는 가우시안 (Gaussians) 집합을 출력하며, 객체 수준의 구조는 사후에 복구되도록 남겨둡니다. 우리는 포즈가 지정되지 않은 다중 뷰 이미지 (unposed multi-view images)로부터 장면을 인스턴스 구조화된 3D 토큰 그룹 (instance-structured 3D token groups)으로 직접 분해하는 피드포워드 프레임워크를 제안합니다. 이는 재구성 (reconstruction), 세그멘테이션 (segmentation), 그리고 조작 (manipulation)이 모두 뒤따를 수 있는 컴팩트한 객체 중심 단위입니다. 각 토큰 그룹은 엔티티 수준의 정체성을 포착하는 인스턴스 토큰 (instance token)과 국소적 기하학 (local geometry) 및 외관 (appearance)을 인코딩하는 앵커 토큰 (anchor tokens)을 쌍으로 구성하며, 이는 일련의 3D 가우시안 (3D Gaussians)으로 디코딩됩니다. 이러한 2단계 인수분해 (two-level factorization)는 객체 정체성을 국소적 외관으로부터 분리하여, 객체 인스턴스를 파생된 결과물이 아닌 표현 (representation)의 네이티브 인터페이스로 만듭니다. 토큰 그룹은 공동 재구성 및 세그멘테이션 감독 (joint reconstruction and segmentation supervision)을 포함하는 미분 가능한 렌더링 (differentiable rendering)을 통해 학습되며, 3D 주석 (3D annotations)을 필요로 하지 않습니다. 우리의 피드포워드 모델은 새로운 뷰 합성 (novel view synthesis)에서 경쟁력을 유지하면서도, 클래스 불가지론적 (class-agnostic) 인스턴스 세그멘테이션에서 장면별 최적화 베이스라인을 능가합니다. 이러한 지표를 넘어, 동일한 토큰 그룹은 객체 그룹을 조작함으로써 객체를 제거, 이동 또는 삽입하는 인스턴스 수준의 장면 편집 (instance-level scene editing)뿐만 아니라, 검색 복잡도가 프리미티브가 아닌 인스턴스 수에 따라 확장되는 효율적인 오픈 보캐블러리 (open-vocabulary) 3D 인스턴스 검색을 직접적으로 가능하게 합니다.

Insights

프리미티브가 아닌 객체로서의 장면: 포즈가 지정되지 않은 뷰로부터의 인스턴스 구조화된 3D 토큰화 (Instance-Structured 3D

요약

핵심 포인트

댓글

에이전틱 내비게이션(Agentic Navigation)에 대해 알아야 할 모든 것

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

sqlite-utils 4.0rc1

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

sqlite-utils 4.0rc1