AnyGroundBench: 시각-언어 모델(Vision-Language Models)의 비디오 그라운딩을 위한 특화 도메인 벤치마크

시각-언어 모델 (Vision-Language Models, VLMs)은 시공간 비디오 그라운딩 (Spatio-Temporal Video Grounding, STVG) 분야에서 엄청난 가능성을 보여주었습니다. 그러나 현재의 평가 프로토콜은 주로 일반적인 일상생활 벤치마크에 대한 제로샷 (zero-shot) 평가에 국한되어 있습니다. 이는 모델이 필연적으로 희귀한 시각적 개념과 복잡한 시공간적 역학에 직면하게 되는 특화된 분야의 실제 응용 사례들과의 심각한 단절을 초래합니다. 무한한 데이터 분포에 걸쳐 철저한 사전 학습 (pre-training)을 수행하는 것은 불가능하기 때문에, 새로운 도메인에 적응하는 능력은 필수적입니다. 이러한 격차를 해소하기 위해, 우리는 STVG 평가 패러다임을 정적인 제로샷 테스트에서 엄격한 도메인 적응 (domain adaptation)으로 전환하도록 설계된 도메인 적응 벤치마크인 AnyGroundBench를 소개합니다. 다섯 가지 특화 도메인 (동물, 산업, 스포츠, 수술, 공공 보안)을 대상으로 하는 AnyGroundBench는 전문가가 주석을 달은 생쥐의 행동과 같은 새로 캡처된 비디오를 기존 데이터셋과 결합하며, 이를 밀집된 고충실도 시공간 주석 (spatio-temporal annotations)을 통해 통합합니다. 결정적으로, 이 벤치마크는 도메인 적응성을 체계적으로 측정하기 위한 전용 학습 서브셋을 제공합니다. 우리는 15개의 최첨단 (state-of-the-art) VLMs를 광범위하게 평가하여, 실제적인 계산 제약 조건 하에서의 제로샷 일반화 및 인컨텍스트 학습 (In-Context Learning, ICL) 능력을 평가합니다. 궁극적으로, 우리의 연구 결과는 현재의 모델들이 특화된 도메인에 직면했을 때 제로샷 및 ICL 기반 적응 모두에서 실패한다는 것을 보여주며, 향후 연구가 반드시 해결해야 할 시공간 추론 (spatio-temporal reasoning)의 결정적인 결함을 드러냅니다.

Insights

AnyGroundBench: 시각-언어 모델(Vision-Language Models)의 비디오 그라운딩을 위한 특화 도메인 벤치마크

요약

핵심 포인트

댓글

TestEvo-Bench: 테스트와 코드의 공동 진화를 위한 실행 가능하고 라이브한 벤치마크

훈련이 필요 없는 개념 국지화(Concept Localization)를 통한 타이포그래피 공격(Typographic Attack)에 대한

강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)

오디오북 낭독의 매력에 대한 오디오 기반 이해

TestEvo-Bench: 테스트와 코드의 공동 진화를 위한 실행 가능하고 라이브한 벤치마크

훈련이 필요 없는 개념 국지화(Concept Localization)를 통한 타이포그래피 공격(Typographic Attack)에 대한

강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)

오디오북 낭독의 매력에 대한 오디오 기반 이해