arXiv논문2026. 05. 22. 21:33

VGenST-Bench: 능동적 비디오 합성을 통한 시공간 추론 벤치마크

요약

MLLM의 시공간 추론 능력을 정밀하게 평가하기 위한 새로운 비디오 벤치마크인 VGenST-Bench를 제안합니다. 생성 모델과 멀티 에이전트 파이프라인을 활용하여 고도로 제어된 비디오와 QA 쌍을 능동적으로 합성하는 것이 특징입니다.

핵심 포인트

기존 정적 데이터셋의 한계를 극복하는 능동적 비디오 합성 방식 도입
공간 규모, 관점, 장면 역동성을 포함한 3x2x2 분류 체계 수립
시각적 인지와 시공간 추론을 분리한 계층적 작업 세트 설계
멀티 에이전트 파이프라인을 통한 데이터 품질 보장

시공간 추론 (Spatio-temporal reasoning)은 현실 세계에서 작동하는 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)의 핵심 역량입니다. 따라서 이를 정밀하게 평가하는 것은 필수적인 과제가 되었습니다. 그러나 기존의 시공간 추론 벤치마크 데이터셋은 주로 정적인 이미지 세트나 수동적으로 큐레이션된 비디오 데이터에 의존하고 있으며, 이는 세밀한 추론 능력을 평가하는 데 한계가 있습니다. 본 논문에서는 생성 모델을 사용하여 고도로 제어되고 다양한 평가 시나리오를 능동적으로 합성하는 비디오 벤치마크인 VGenST-Bench를 소개합니다. VGenST-Bench를 구축하기 위해, 우리는 인간 품질 관리 (human quality control) 단계를 포함하는 멀티 에이전트 파이프라인 (multi-agent pipeline)을 제안하며, 이를 통해 생성된 모든 비디오와 질의응답 (QA) 쌍의 품질을 보장합니다. 우리는 다양한 시나리오를 아우를 수 있도록 공간 규모 (Spatial Scale), 관점 (Perspective), 장면 역동성 (Scene Dynamics)을 포함하는 포괄적인 3x2x2 비디오 분류 체계 (taxonomy)를 수립합니다. 나아가, 저수준의 시각적 인지 (visual perception)를 고수준의 시공간 추론 (spatio-temporal reasoning)으로부터 분리하는 계층적 작업 세트 (hierarchical task suite)를 설계합니다. 수동적 큐레이션에서 능동적 합성으로 패러다임을 전환함으로써, VGenST-Bench는 MLLMs의 시공간 이해에 대한 세밀한 진단을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VGenST-Bench: 능동적 비디오 합성을 통한 시공간 추론 벤치마크

요약

핵심 포인트

댓글