PruneGround: 3D Visual Grounding을 위한 플러그 앤 플레이 방식의 공간적 프루닝 (Spatial Pruning)

3D Visual Grounding (3DVG)는 자연어 설명을 바탕으로 3D 장면 내에서 대상 객체를 국지화(localize)하는 것을 목표로 합니다. 기존 방식들은 일반적으로 전체 장면에 대해 추론을 수행하며, 이는 특히 복잡한 환경에서 모호한 예측과 높은 계산 비용을 초래합니다. 우리는 많은 참조 표현(referential expressions)이 국소적인 공간적 맥락(local spatial context)에 의존하며, 전체 장면보다는 제한된 공간 영역에 대응하는 경우가 많다는 점을 관찰했습니다. 이러한 통찰에 착안하여, 우리는 세 가지 핵심 구성 요소로 구축된 3DVG를 위한 효과적인 플러그 앤 플레이 (plug-and-play) 프레임워크인 PruneGround를 제안합니다. 첫째, 우리는 언어 관련 영역을 식별하기 위해 동결된 시각-언어 모델 (Vision Language Model, VLM)을 활용하는 언어 가이드 공간적 프루닝 (Language-Guided Spatial Pruning, LGSP)을 도입하여, 공간적 계산을 줄이고 더 좁은 탐색 공간 내에서 그라운딩 후보를 식별합니다. 둘째, 복잡한 표현을 단순화된 대상-앵커 관계 (target-anchor relations)로 분해하고 다중 뷰 추론 (multi-view reasoning)을 통해 누락된 공간적 단서를 보강하는 다중 뷰 조건부 설명 재구성 (MultiView-Conditioned Description Reformulation, MCDR)을 제안합니다. 마지막으로, 우리는 프루닝된 영역 내에서 포인트 클라우드 (point cloud)와 언어적 표현을 정렬함으로써, 탐지 (detection)로 사전 학습된 공간적 LLM을 언어 조건부 그라운딩 모델로 재목적화하는 LLM-Grounder를 제안합니다. 가장 인기 있는 세 가지 포인트 클라우드 벤치마크에 대한 광범위한 실험 결과, 우리의 방법은 세 가지 ScanRefer 설정 모두와 10개 중 9개의 Nr3D/Sr3D 설정에서 최첨단 (state-of-the-art) 성능을 달성함을 입증했습니다. 코드와 모델은 공개적으로 사용 가능합니다: https://github.com/leduckhai/PruneGround

Insights

PruneGround: 3D Visual Grounding을 위한 플러그 앤 플레이 방식의 공간적 프루닝 (Spatial Pruning)

요약

핵심 포인트

댓글

WIDER-FAIR: 공정성 평가를 위한 WIDER-FACE 데이터셋의 주석 버전

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

TalentCLEF 2026 개요: 인적 자본 관리(Human Capital Management)를 위한 기술 및 직무 타이틀 인텔리전스

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

WIDER-FAIR: 공정성 평가를 위한 WIDER-FACE 데이터셋의 주석 버전

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

TalentCLEF 2026 개요: 인적 자본 관리(Human Capital Management)를 위한 기술 및 직무 타이틀 인텔리전스

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사