DeWorldSG: 월드 모델 사전 지식(World-Model Priors)을 통한 깊이 인식(Depth-Aware) 3D 시맨틱 장면

우리는 RGB-D 시퀀스로부터 시공간적으로 견고한 3D 시맨틱 장면 그래프(3D Semantic Scene Graphs)를 생성하는 새로운 프레임워크인 DeWorldSG를 제시합니다. 기존 방법들은 불안정한 3D 객체 표현과 프레임 단위 추론(frame-wise inference)으로 인한 관계 누락 문제로 인해 신뢰할 수 있는 3D 장면 그래프를 구축하는 데 어려움을 겪는 경우가 많습니다. DeWorldSG는 깊이 가이드 필터링(depth-guided filtering)을 통해 인스턴스 수준의 기하학적 3D 가우시안 분포(3D Gaussian distributions)를 추정하고, 각 객체를 단일 투영된 점이 아닌 확률적 3D 노드(probabilistic 3D node)로 표현함으로써 이러한 문제를 해결합니다. 프레임 단위 추론에서 발생하는 관계 희소성(relational sparsity)을 완화하기 위해, 우리의 프레임워크는 객체 쌍(object pairs) 간의 시공간적 증거를 더욱 통합하고 월드 모델(world model, V-JEPA 2)에서 유도된 문맥적 사전 지식(contextual priors)을 사용하여 관계를 정교화합니다. 3DSSG 및 ReplicaSSG 데이터셋에 대한 실험 결과, 객체 및 술어(predicate) 예측 모두에서 최첨단(SoTA) 성능을 입증하였으며, 시간적으로 일관된 장면 구조를 생성합니다. 특히, 우리의 방법은 이전의 SoTA 방식 대비 트리플릿 재현율(triplet recall)을 77.4%, 술어 재현율(predicate recall)을 23.2% 향상시켜 로봇 조작(robotic manipulation) 및 AR 애플리케이션에 적합하도록 만들었습니다. 우리의 코드와 모델은 오픈 소스로 공개되어 있습니다.

Insights

DeWorldSG: 월드 모델 사전 지식(World-Model Priors)을 통한 깊이 인식(Depth-Aware) 3D 시맨틱 장면

요약

핵심 포인트

댓글

개인 참조 정보 정리: Hermes Skills가 보안 모범 사례를 유지하는 방법

에이전트 액세스가 이제 설정 항목이 되었습니다

「Everything as Code」의 종착점에 AI가 왔다——고 생각했더니, 그것은 시작이었다

Rivian, 인도량 예상치 상회 및 2026 회계연도 전망치 상향

에이전트 액세스가 이제 설정 항목이 되었습니다

「Everything as Code」의 종착점에 AI가 왔다——고 생각했더니, 그것은 시작이었다

Rivian, 인도량 예상치 상회 및 2026 회계연도 전망치 상향