3D 시각적 접지 (3D Visual Grounding)를 위한 다양한 언어 생성 스케일링
요약
3D 시각적 접지(3DVG) 성능 향상을 위해 씬 그래프 제약 조건과 LLM의 언어 생성을 결합한 ViGiL3D++ 방법론을 제안합니다. 이 방식은 데이터의 다양성을 확보하여 모델의 일반화 능력을 높이고 기존 VLM의 한계를 규명합니다.
핵심 포인트
- 3D 장면 내 엔티티를 찾는 3DVG 모델의 데이터 다양성 문제 해결
- 씬 그래프 샘플링과 LLM을 결합한 확장 가능한 방법론 ViGiL3D++ 제안
- 기존 스케일링 데이터셋 대비 높은 다양성 및 벤치마크 성능 향상 입증
- 시각-언어 모델(VLM)의 주요 한계점 분석 및 제시
자연어로 설명된 3D 장면 내 엔티티(entity)를 찾아내는 3D 시각적 접지 (3D Visual Grounding, 3DVG)를 위한 강력한 모델을 개발하는 것은, 에이전트가 물리적 세계의 객체와 공간 언어를 대응시킬 수 있도록 하는 데 매우 중요합니다. 그러나 대규모의 다양한 설명이 부족하여 모델이 단순한 언어 패턴을 넘어 일반화되는 것을 방해합니다. 최근의 이러한 시도들은 객체를 접지(grounding)하는 데 사용되는 제약 조건(constraint) 유형과 언어의 다양성이 부족합니다. 캡셔닝 (Captioning) 방식은 시각적 접지에 중요한 객체 간의 정밀한 대조를 수행할 수 없습니다. 따라서 우리는 씬 그래프 (scene graph)에서의 제약 조건 샘플링과 대규모 언어 모델 (LLM)의 언어 생성을 결합하여, 다양한 시각적 접지 쿼리를 생성하는 확장 가능하고 장면 불가지론적 (scene-agnostic) 방법론인 ViGiL3D++를 제안합니다. 우리는 이 방법이 기존의 스케일링된 데이터셋보다 더 높은 다양성을 가지며, 여러 3DVG 벤치마크에서 모델 성능을 향상시킬 뿐만 아니라 시각-언어 모델 (VLM)의 두드러진 한계점들을 밝혀낸다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기