LongVQUBench: 시각-언어 모델(Vision-Language Models)의 장기 비디오 품질 이해 벤치마킹
요약
LVLM의 장기 비디오 품질 이해 능력을 평가하기 위한 새로운 벤치마크인 LongVQUBench를 제안합니다. 기존 벤치마크가 놓치기 쉬운 시간적 연속성과 누적 저하를 측정하기 위해 계층적 평가 체계와 NDQA 패러다임을 도입했습니다.
핵심 포인트
- 장기 비디오의 시간적 연속성 및 누적 저하 평가를 위한 벤치마크 제시
- LQU, CQR, GQU로 이어지는 3단계 계층적 평가 수준 도입
- 미세한 아티팩트 탐지를 위한 Needle Distortion QA 패러다임 적용
- 비디오 길이와 추론 복잡도 증가에 따른 LVLM 성능 저하 확인
장기 비디오 품질 이해(long-term video quality understanding)를 평가하는 것은 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)에게 여전히 해결되지 않은 과제로 남아 있습니다. 기존의 비디오 품질 벤치마크는 주로 짧은 클립과 고립된 왜곡(distortions)에 집중되어 있어, 장기 콘텐츠에 내재된 시간적 연속성(temporal continuity), 누적된 저하(cumulative degradation), 그리고 추론 복잡성(reasoning complexity)을 간과하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 장기 비디오 품질 이해를 위한 종합적인 벤치마크인 LongVQUBench를 제시합니다. LongVQUBench는 영화, 다큐멘터리, 감시 카메라 영상, 1인칭 시점(egocentric) 녹화물, 애니메이션 콘텐츠를 아우르는 1,200개 이상의 다양한 비디오를 포함하며, 검증 및 테스트를 위한 1,500개의 객관식 및 주관식 질문이 함께 제공됩니다. 다양한 시간적 범위에 걸친 지각적 추론(perceptual reasoning)을 평가하기 위해, 우리는 점진적으로 복잡해지는 세 가지 평가 수준을 도입합니다: (i) 국소적 왜곡을 분석하기 위한 국소 이벤트 품질 이해 (Local Event Quality Understanding, LQU), (ii) 여러 저하된 이벤트를 통합하기 위한 교차 이벤트 품질 추론 (Cross-Event Quality Reasoning, CQR), (iii) 장기간에 걸친 총체적 지각 평가를 위한 전역 품질 이해 (Global Quality Understanding, GQU). 또한, 세 가지 수준 모두에 바늘 왜곡 질의응답 (Needle Distortion Question-Answering, NDQA) 패러다임을 삽입하여, 공간적 또는 시간적 아티팩트(artifacts)를 드물게 삽입함으로써 미세한 탐지 및 추론 능력을 조사합니다. 14개의 최첨단(state-of-the-art) LVLM을 대상으로 한 광범위한 실험 결과, 비디오 길이가 길어지고 추론 깊이가 깊어짐에 따라 성능이 크게 저하됨을 확인하였으며, 이는 장거리 시간적 통합(long-range temporal integration) 및 지각적 귀인(perceptual attribution)에 대한 모델의 제한된 능력을 강조합니다. 우리는 LongVQUBench가 LVLM의 장기 비디오 품질 이해에 대한 체계적이고 계층적이며 설명 가능한 평가를 향한 기초적인 단계가 되기를 기대합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기