CapRiCorn-1K: 다양한 시간적 규모에 걸친 비디오 캡셔닝 및 피사체 참조 일관성을 위한 종합 벤치마크
요약
비디오 캡셔닝 모델의 품질과 피사체 참조 일관성을 평가하기 위한 새로운 벤치마크인 CapRiCorn-1K를 제안합니다. 긴 영상과 다양한 도메인을 포함하며, 시청각 및 시각 전용 설정을 모두 지원하여 모델의 한계를 정밀하게 측정합니다.
핵심 포인트
- 비디오 캡셔닝의 피사체 참조 일관성을 평가하는 종합 벤치마크 제안
- 영상 길이가 길어질수록 캡션 품질과 일관성이 저하됨을 확인
- 시청각 및 시각 전용 설정을 모두 지원하는 유연한 평가 구조
- 제안된 지표가 다운스트림 작업 성능과 높은 상관관계를 가짐
일관된 피사체 참조(subject references)를 포함하는 정확하고 포괄적인 비디오 캡션(video captions)은 다운스트림 이해 및 생성 작업에 매우 중요합니다. 그러나 기존의 벤치마크 중에는 다양한 지속 시간과 시나리오에 걸쳐 이러한 특성들을 객관적이고 포괄적으로 평가할 수 있는 것이 거의 없으며, 이는 비디오 캡셔닝 (video captioning) 모델의 발전을 저해하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 긴 시간적 지평(temporal horizons)과 다양한 비디오 도메인에 걸쳐 비디오 캡셔닝 품질과 피사체 참조 일관성(subject referential consistency)을 모두 평가하도록 설계된 종합 벤치마크인 CapRiCorn-1K를 제안합니다. 다양한 평가 요구 사항을 수용하기 위해, 우리의 벤치마크는 시청각(audiovisual) 및 시각 전용(visual-only) 설정을 모두 지원합니다. CapRiCorn-1K에 대한 광범위한 실험 결과, 현재의 모델들은 일관된 피사체 참조를 유지하면서 정확하고 포괄적인 캡션을 생성하는 데 일반적으로 어려움을 겪는 것으로 나타났습니다. 또한, 비디오의 지속 시간이 길어짐에 따라 전반적인 캡션 품질과 피사체 참조 일관성이 모두 저하됩니다. 특히, 우리의 평가 지표는 생성된 캡션을 조건으로 하는 다운스트림 이해 및 생성 작업의 성능과 강한 상관관계를 보여주며, 이를 통해 지표의 유효성을 더욱 입증합니다. 프로젝트는 https://github.com/xlchen0205/CapRiCorn-1K 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기