X요약2026. 07. 06. 07:05

Video-MME-Logical, 비디오 MLLM의 거대한 추론 격차를 드러내다

요약

비디오 MLLM의 시간적-논리적 추론 능력을 평가하기 위한 새로운 벤치마크인 Video-MME-Logical을 소개합니다. 테스트 결과 인간과 AI 모델 간의 극심한 성능 격차가 확인되었습니다.

비디오에서의 시간적-논리적 추론 (temporal-logical reasoning)을 위한 새로운 통제된 벤치마크 (benchmark).

5가지 핵심 연산에 걸친 25개의 태스크 (tasks).

인간의 점수는 95.9%.

가장 뛰어난 모델은 단 28.6%를 기록.

500K개의 SFT (Supervised Fine-Tuning) 샘플로도 이 격차를 줄일 수 없습니다. https://t.co/fpVxkhoCSb
[IMG:1]

AI 자동 생성 콘텐츠