AnyGroundBench: 시각-언어 모델(Vision-Language Models)의 비디오 그라운딩을 위한 특화 도메인 벤치마크
요약
시각-언어 모델(VLM)의 비디오 그라운딩 능력을 평가하기 위해 설계된 새로운 도메인 적응 벤치마크 AnyGroundBench를 소개합니다. 동물, 산업, 수술 등 5가지 특화 도메인을 통해 모델의 시공간 추론 및 도메인 적응 능력을 체계적으로 측정합니다.
핵심 포인트
- 기존 제로샷 평가의 한계를 극복하기 위한 도메인 적응 중심의 벤치마크 제안
- 동물, 산업, 스포츠, 수술, 공공 보안 등 5가지 특화 도메인 데이터셋 포함
- 15개의 최첨단 VLM을 대상으로 제로샷 및 인컨텍스트 학습 능력 평가
- 현재 모델들이 특화 도메인의 시공간 추론에서 결함이 있음을 입증
시각-언어 모델 (Vision-Language Models, VLMs)은 시공간 비디오 그라운딩 (Spatio-Temporal Video Grounding, STVG) 분야에서 엄청난 가능성을 보여주었습니다. 그러나 현재의 평가 프로토콜은 주로 일반적인 일상생활 벤치마크에 대한 제로샷 (zero-shot) 평가에 국한되어 있습니다. 이는 모델이 필연적으로 희귀한 시각적 개념과 복잡한 시공간적 역학에 직면하게 되는 특화된 분야의 실제 응용 사례들과의 심각한 단절을 초래합니다. 무한한 데이터 분포에 걸쳐 철저한 사전 학습 (pre-training)을 수행하는 것은 불가능하기 때문에, 새로운 도메인에 적응하는 능력은 필수적입니다. 이러한 격차를 해소하기 위해, 우리는 STVG 평가 패러다임을 정적인 제로샷 테스트에서 엄격한 도메인 적응 (domain adaptation)으로 전환하도록 설계된 도메인 적응 벤치마크인 AnyGroundBench를 소개합니다. 다섯 가지 특화 도메인 (동물, 산업, 스포츠, 수술, 공공 보안)을 대상으로 하는 AnyGroundBench는 전문가가 주석을 달은 생쥐의 행동과 같은 새로 캡처된 비디오를 기존 데이터셋과 결합하며, 이를 밀집된 고충실도 시공간 주석 (spatio-temporal annotations)을 통해 통합합니다. 결정적으로, 이 벤치마크는 도메인 적응성을 체계적으로 측정하기 위한 전용 학습 서브셋을 제공합니다. 우리는 15개의 최첨단 (state-of-the-art) VLMs를 광범위하게 평가하여, 실제적인 계산 제약 조건 하에서의 제로샷 일반화 및 인컨텍스트 학습 (In-Context Learning, ICL) 능력을 평가합니다. 궁극적으로, 우리의 연구 결과는 현재의 모델들이 특화된 도메인에 직면했을 때 제로샷 및 ICL 기반 적응 모두에서 실패한다는 것을 보여주며, 향후 연구가 반드시 해결해야 할 시공간 추론 (spatio-temporal reasoning)의 결정적인 결함을 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기