arXiv논문2026. 05. 25. 16:34

긴 영상의 키프레임 검색을 위한 쿼리의 도구 호출 분해

요약

긴 영상 질의응답을 위해 쿼리를 도구 호출로 분해하고 병합하는 ToolMerge 방법론을 제안합니다. LLM 기반 플래너와 불리언 연산자를 사용하여 키프레임을 검색하며, 새로운 벤치마크인 M2M을 통해 성능을 검증했습니다.

핵심 포인트

LLM 플래너를 통한 쿼리의 도구 호출 분해 및 병합
불리언 연산자를 활용한 도구별 순위 병합 방식 도입
새로운 벤치마크 Molmo-2 Moments(M2M) 구축
캡션 검색 분야에서 기존 방식 대비 5% 성능 향상

키프레임 선택 (Keyframe selection)은 긴 영상 질의응답 (Long-video QA)을 위해 검증 가능한 시각적 증거를 제공하는 직접적인 방법입니다. 쿼리는 요구 사항이 서로 다르며, 적절한 프레임을 찾는 것은 무엇을 찾아야 하는지 아는 것에 달려 있습니다. 기존의 키프레임 선택기 (Keyframe selectors)는 모든 프레임을 단일 쿼리에 대해 점수를 매기거나, 쿼리를 단일 시각적 도구 (Visual tool)에 의해 평가되는 고정된 스키마 (Schema)로 분해합니다. 우리는 분해와 병합에 기반한 키프레임 검색 방법인 ToolMerge를 제안합니다. Large Language Model (LLM) 기반의 플래너 (Planner)가 쿼리를 도구 호출 (Tool calls)로 분해하고, 불리언 연산자 (Boolean operators)를 사용하여 각 도구별 순위가 어떻게 병합되는지를 지정합니다. 검색을 직접 평가하기 위해, 우리는 모든 질문이 구조적으로 특정 시간 간격에 고정된 벤치마크인 Molmo-2 Moments (M2M)를 구축했습니다. 질의응답 (QA), 질문 검색 (Question retrieval), 캡션 검색 (Caption retrieval) 전반에 걸쳐 ToolMerge는 기존의 키프레임 선택기들과 경쟁할 만한 성능을 보였으며, 특히 캡션 검색에서는 다른 방법들보다 5% 더 높은 성능을 기록하며 앞서 나갔습니다. 코드와 데이터는 https://github.com/michalsr/ToolMerge 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

긴 영상의 키프레임 검색을 위한 쿼리의 도구 호출 분해

요약

핵심 포인트

댓글