LongVQUBench: 시각-언어 모델(Vision-Language Models)의 장기 비디오 품질 이해 벤치마킹

장기 비디오 품질 이해(long-term video quality understanding)를 평가하는 것은 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)에게 여전히 해결되지 않은 과제로 남아 있습니다. 기존의 비디오 품질 벤치마크는 주로 짧은 클립과 고립된 왜곡(distortions)에 집중되어 있어, 장기 콘텐츠에 내재된 시간적 연속성(temporal continuity), 누적된 저하(cumulative degradation), 그리고 추론 복잡성(reasoning complexity)을 간과하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 장기 비디오 품질 이해를 위한 종합적인 벤치마크인 LongVQUBench를 제시합니다. LongVQUBench는 영화, 다큐멘터리, 감시 카메라 영상, 1인칭 시점(egocentric) 녹화물, 애니메이션 콘텐츠를 아우르는 1,200개 이상의 다양한 비디오를 포함하며, 검증 및 테스트를 위한 1,500개의 객관식 및 주관식 질문이 함께 제공됩니다. 다양한 시간적 범위에 걸친 지각적 추론(perceptual reasoning)을 평가하기 위해, 우리는 점진적으로 복잡해지는 세 가지 평가 수준을 도입합니다: (i) 국소적 왜곡을 분석하기 위한 국소 이벤트 품질 이해 (Local Event Quality Understanding, LQU), (ii) 여러 저하된 이벤트를 통합하기 위한 교차 이벤트 품질 추론 (Cross-Event Quality Reasoning, CQR), (iii) 장기간에 걸친 총체적 지각 평가를 위한 전역 품질 이해 (Global Quality Understanding, GQU). 또한, 세 가지 수준 모두에 바늘 왜곡 질의응답 (Needle Distortion Question-Answering, NDQA) 패러다임을 삽입하여, 공간적 또는 시간적 아티팩트(artifacts)를 드물게 삽입함으로써 미세한 탐지 및 추론 능력을 조사합니다. 14개의 최첨단(state-of-the-art) LVLM을 대상으로 한 광범위한 실험 결과, 비디오 길이가 길어지고 추론 깊이가 깊어짐에 따라 성능이 크게 저하됨을 확인하였으며, 이는 장거리 시간적 통합(long-range temporal integration) 및 지각적 귀인(perceptual attribution)에 대한 모델의 제한된 능력을 강조합니다. 우리는 LongVQUBench가 LVLM의 장기 비디오 품질 이해에 대한 체계적이고 계층적이며 설명 가능한 평가를 향한 기초적인 단계가 되기를 기대합니다.

Insights

LongVQUBench: 시각-언어 모델(Vision-Language Models)의 장기 비디오 품질 이해 벤치마킹

요약

핵심 포인트

댓글

VS Code에서 자동으로 열리는 Copilot Chat을 중지하는 방법

개인 참조 정보 정리: Hermes Skills가 보안 모범 사례를 유지하는 방법

에이전트 액세스가 이제 설정 항목이 되었습니다

「Everything as Code」의 종착점에 AI가 왔다——고 생각했더니, 그것은 시작이었다

개인 참조 정보 정리: Hermes Skills가 보안 모범 사례를 유지하는 방법

에이전트 액세스가 이제 설정 항목이 되었습니다

「Everything as Code」의 종착점에 AI가 왔다——고 생각했더니, 그것은 시작이었다