arXiv논문2026. 06. 03. 11:05

SagaQA: TV 시리즈의 장편 서사 이해를 위한 멀티홉 추론 (Multi-hop Reasoning) 벤치마크

요약

TV 시리즈의 장편 서사를 이해하기 위한 멀티홉 추론 벤치마크인 SagaQA를 소개합니다. 기존의 국소적 이해를 넘어 에피소드 간 정보를 연결하는 장거리 추론 능력을 평가하며, 다양한 에이전트 계획 전략의 성능을 분석합니다.

핵심 포인트

장편 비디오 서사 이해를 위한 SagaQA 벤치마크 제안
에피소드 간 정보를 연결하는 멀티홉 추론 요구
병렬, 순차, 하이브리드 플래너의 계획 전략 비교 연구
하이브리드 플래너가 복잡한 서사 이해에 가장 효과적임

우리는 전체 길이의 TV 시리즈에 대한 멀티홉 추론 (Multi-hop Reasoning)을 위한 장편 비디오 벤치마크인 SagaQA를 소개합니다. 기존의 비디오 추론 벤치마크들은 종종 인접한 프레임이나 클립의 국소적인 이해 (Local understanding)를 강조해 왔습니다. SagaQA는 전체 TV 쇼의 확장된 멀티모달 (Multimodal) 서사에 대한 고차원적인 이해를 요구함으로써 이러한 격차를 해소합니다. SagaQA의 차별화된 특징은 추론 단계의 세밀함 (Granularity)입니다. 우리의 데이터셋은 완전히 다른 에피소드 간의 정보를 연결하기 위해 장거리 추론 홉 (Long-range reasoning hops)을 필요로 합니다. 이는 모델이 전체 사건과 행동에 대해 추론할 것을 요구하며, 멀티모달 수준에서 쇼의 내러티브와 전개에 대한 깊은 이해를 요구합니다. 에이전트 방식 (Agentic methods)의 최근 발전에 힘입어, 우리는 서로 다른 계획 전략 (Planning strategies)이 이러한 복잡한 추론을 어떻게 처리하는지 추가로 연구합니다. 우리는 이러한 접근 방식들을 병렬 (Parallel), 순차 (Sequential), 하이브리드 (Hybrid) 플래너의 세 가지 클래스로 분류하고, 일관되고 완전한 추론 계획을 생성하는 능력을 평가합니다. SagaQA에 대한 우리의 결과는 하이브리드 플래너가 일관되게 더 높은 품질의 계획을 생성하며, TV 쇼의 복잡하고 고차원적인 서사 이해에 대해 더 강력한 능력을 보여준다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SagaQA: TV 시리즈의 장편 서사 이해를 위한 멀티홉 추론 (Multi-hop Reasoning) 벤치마크

요약

핵심 포인트

댓글