PruneGround: 3D Visual Grounding을 위한 플러그 앤 플레이 방식의 공간적 프루닝 (Spatial Pruning)
요약
3D Visual Grounding의 계산 효율성과 정확도를 높이기 위해 공간적 프루닝을 도입한 PruneGround 프레임워크를 제안합니다. VLM을 활용한 공간 탐색 범위 축소와 다중 뷰 추론을 통해 복잡한 3D 장면에서도 최첨단 성능을 달성했습니다.
핵심 포인트
- 언어 가이드 공간적 프루닝(LGSP)으로 계산 비용 절감
- 다중 뷰 조건부 설명 재구성(MCDR)을 통한 공간 단서 보강
- 공간적 LLM을 언어 조건부 그라운딩 모델로 재목적화
- 주요 3D 포인트 클라우드 벤치마크에서 SOTA 성능 달성
3D Visual Grounding (3DVG)는 자연어 설명을 바탕으로 3D 장면 내에서 대상 객체를 국지화(localize)하는 것을 목표로 합니다. 기존 방식들은 일반적으로 전체 장면에 대해 추론을 수행하며, 이는 특히 복잡한 환경에서 모호한 예측과 높은 계산 비용을 초래합니다. 우리는 많은 참조 표현(referential expressions)이 국소적인 공간적 맥락(local spatial context)에 의존하며, 전체 장면보다는 제한된 공간 영역에 대응하는 경우가 많다는 점을 관찰했습니다. 이러한 통찰에 착안하여, 우리는 세 가지 핵심 구성 요소로 구축된 3DVG를 위한 효과적인 플러그 앤 플레이 (plug-and-play) 프레임워크인 PruneGround를 제안합니다. 첫째, 우리는 언어 관련 영역을 식별하기 위해 동결된 시각-언어 모델 (Vision Language Model, VLM)을 활용하는 언어 가이드 공간적 프루닝 (Language-Guided Spatial Pruning, LGSP)을 도입하여, 공간적 계산을 줄이고 더 좁은 탐색 공간 내에서 그라운딩 후보를 식별합니다. 둘째, 복잡한 표현을 단순화된 대상-앵커 관계 (target-anchor relations)로 분해하고 다중 뷰 추론 (multi-view reasoning)을 통해 누락된 공간적 단서를 보강하는 다중 뷰 조건부 설명 재구성 (MultiView-Conditioned Description Reformulation, MCDR)을 제안합니다. 마지막으로, 우리는 프루닝된 영역 내에서 포인트 클라우드 (point cloud)와 언어적 표현을 정렬함으로써, 탐지 (detection)로 사전 학습된 공간적 LLM을 언어 조건부 그라운딩 모델로 재목적화하는 LLM-Grounder를 제안합니다. 가장 인기 있는 세 가지 포인트 클라우드 벤치마크에 대한 광범위한 실험 결과, 우리의 방법은 세 가지 ScanRefer 설정 모두와 10개 중 9개의 Nr3D/Sr3D 설정에서 최첨단 (state-of-the-art) 성능을 달성함을 입증했습니다. 코드와 모델은 공개적으로 사용 가능합니다: https://github.com/leduckhai/PruneGround
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기