
Video-MME-Logical, 비디오 MLLM의 거대한 추론 격차를 드러내다
요약
비디오 MLLM의 시간적-논리적 추론 능력을 평가하기 위한 새로운 벤치마크인 Video-MME-Logical을 소개합니다. 테스트 결과 인간과 AI 모델 간의 극심한 성능 격차가 확인되었습니다.
핵심 포인트
- 비디오 내 시간적-논리적 추론을 위한 새로운 벤치마크 공개
- 5가지 핵심 연산과 25개의 태스크로 구성
- 인간(95.9%) 대비 최고 모델(28.6%)의 낮은 성능 확인
- 500K개의 SFT 샘플로도 추론 격차 해소 불가
비디오에서의 시간적-논리적 추론 (temporal-logical reasoning)을 위한 새로운 통제된 벤치마크 (benchmark).
5가지 핵심 연산에 걸친 25개의 태스크 (tasks).
인간의 점수는 95.9%.
가장 뛰어난 모델은 단 28.6%를 기록.
500K개의 SFT (Supervised Fine-Tuning) 샘플로도 이 격차를 줄일 수 없습니다. https://t.co/fpVxkhoCSb
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기