DeWorldSG: 월드 모델 사전 지식(World-Model Priors)을 통한 깊이 인식(Depth-Aware) 3D 시맨틱 장면
요약
DeWorldSG는 월드 모델의 사전 지식을 활용하여 RGB-D 시퀀스로부터 견고한 3D 시맨틱 장면 그래프를 생성하는 프레임워크입니다. 확률적 3D 노드 표현과 시공간적 증거 통합을 통해 기존 방식의 관계 누락 문제를 해결하고 성능을 크게 향상시켰습니다.
핵심 포인트
- 월드 모델(V-JEPA 2)의 문맥적 사전 지식을 활용한 관계 정교화
- 확률적 3D 노드 표현을 통한 불안정한 객체 표현 문제 해결
- 기존 SoTA 대비 트리플릿 재현율 77.4% 향상
- 로봇 조작 및 AR 애플리케이션에 최적화된 시간적 일관성 제공
우리는 RGB-D 시퀀스로부터 시공간적으로 견고한 3D 시맨틱 장면 그래프(3D Semantic Scene Graphs)를 생성하는 새로운 프레임워크인 DeWorldSG를 제시합니다. 기존 방법들은 불안정한 3D 객체 표현과 프레임 단위 추론(frame-wise inference)으로 인한 관계 누락 문제로 인해 신뢰할 수 있는 3D 장면 그래프를 구축하는 데 어려움을 겪는 경우가 많습니다. DeWorldSG는 깊이 가이드 필터링(depth-guided filtering)을 통해 인스턴스 수준의 기하학적 3D 가우시안 분포(3D Gaussian distributions)를 추정하고, 각 객체를 단일 투영된 점이 아닌 확률적 3D 노드(probabilistic 3D node)로 표현함으로써 이러한 문제를 해결합니다. 프레임 단위 추론에서 발생하는 관계 희소성(relational sparsity)을 완화하기 위해, 우리의 프레임워크는 객체 쌍(object pairs) 간의 시공간적 증거를 더욱 통합하고 월드 모델(world model, V-JEPA 2)에서 유도된 문맥적 사전 지식(contextual priors)을 사용하여 관계를 정교화합니다. 3DSSG 및 ReplicaSSG 데이터셋에 대한 실험 결과, 객체 및 술어(predicate) 예측 모두에서 최첨단(SoTA) 성능을 입증하였으며, 시간적으로 일관된 장면 구조를 생성합니다. 특히, 우리의 방법은 이전의 SoTA 방식 대비 트리플릿 재현율(triplet recall)을 77.4%, 술어 재현율(predicate recall)을 23.2% 향상시켜 로봇 조작(robotic manipulation) 및 AR 애플리케이션에 적합하도록 만들었습니다. 우리의 코드와 모델은 오픈 소스로 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기