VideoSeeker: 네이티브 에이전트 도구 호출을 통한 인스턴스 수준 비디오 이해 유도
요약
VideoSeeker는 기존 LVLM이 텍스트 프롬프트에 의존하여 정밀한 시공간적 지역화에 어려움을 겪던 문제를 해결하기 위해 제안된 새로운 패러다임입니다. 에이전트 추론을 통합하여 모델이 시각적 프롬프트를 통해 필요한 비디오 세그먼트를 능동적으로 검색하고 인지할 수 있도록 설계되었습니다. 실험 결과, GPT-4o 및 Gemini-2.5-Pro와 같은 폐쇄형 모델보다 뛰어난 성능을 보이며 인스턴스 수준의 비디오 이해 능력을 입증했습니다.
핵심 포인트
- 텍스트 프롬프트의 한계를 극복하기 위해 시각적 프롬프트와 에이전트 추론을 결합한 VideoSeeker 제안
- 4단계 자동화 데이터 합성 파이프라인을 통한 고품질 인스턴스 수준 비디오 데이터 생성
- 도구 호출(tool-calling) 및 능동적 인지 능력을 내재화하기 위해 콜드 스타트 감독과 강화학습(RL) 활용
- 기존 베이스라인 대비 평균 13.7% 성능 향상 및 주요 폐쇄형 모델(GPT-4o, Gemini-2.5-Pro) 능가
대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 비디오 이해 분야에서 상당한 발전을 보여주었으나, 인스턴스 (instance) 수준의 정밀한 시공간적 지역화 (spatiotemporal localization)를 요구하는 작업에서는 상당한 어려움에 직면해 있습니다. 기존 방법들은 주로 인간과 모델 간의 상호작용을 위해 텍스트 프롬프트 (text prompts)에 의존하지만, 이러한 프롬프트는 정밀한 공간 및 시간적 참조를 제공하는 데 어려움이 있어 사용자 경험을 저해합니다. 또한, 현재의 접근 방식은 일반적으로 시각적 인지 (visual perception)를 언어 추론 (language reasoning)과 분리하며, 추론의 중심을 시각적 콘텐츠가 아닌 언어에 두기 때문에 모델이 미세한 시각적 증거를 능동적으로 인지하는 능력을 제한합니다.
이러한 문제를 해결하기 위해, 우리는 시각적 프롬프트 (visual prompts)를 통해 인스턴스 수준의 비디오 이해를 수행하는 새로운 패러다임인 VideoSeeker를 제안합니다. VideoSeeker는 에이전트 추론 (agentic reasoning)을 인스턴스 수준의 비디오 이해 작업과 원활하게 통합하여, 모델이 요구에 따라 관련 비디오 세그먼트 (video segments)를 능동적으로 인지하고 검색할 수 있도록 합니다. 우리는 대규모의 고품질 인스턴스 수준 비디오 데이터를 효율적으로 생성하기 위해 4단계의 완전 자동화된 데이터 합성 파이프라인을 구축했습니다. 우리는 콜드 스타트 감독 (cold-start supervision) 및 강화학습 (RL) 훈련을 통해 도구 호출 (tool-calling) 및 능동적 인지 능력을 모델 내부에 내재화하여 강력한 비디오 이해 모델을 구축했습니다.
실험 결과, 우리 모델은 인스턴스 수준의 비디오 이해 작업에서 베이스라인 (baselines) 대비 평균 +13.7%의 성능 향상을 달성하였으며, GPT-4o 및 Gemini-2.5-Pro와 같은 강력한 폐쇄형 모델 (closed-source models)을 능가하는 동시에 일반 비디오 이해 벤치마크에서도 효과적인 전이성 (transferability)을 보여주었습니다. 관련 데이터셋과 코드는 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기