정답이 없을 때: 비디오 이해를 위한 MLLM의 부재 정답 탐지(Absent Answer Detection) 진단
요약
비디오 이해를 위한 MLLM의 부재 정답 탐지(Absent Answer Detection) 능력을 진단한 연구입니다. 실험 결과, MLLM은 정답이 없는 상황에서도 그럴듯한 오답을 선택하는 경향이 있으며, 특히 시간적 추론 작업에서 이러한 실패가 두드러짐을 확인했습니다.
핵심 포인트
- MLLM은 정답이 없는 상황에서 오답을 선택하는 경향이 있음
- 시간적 추론 작업과 높은 프레임 샘플링 밀도에서 성능 악화
- CoT 프롬프팅이 탐지율을 일부 향상시키나 한계가 명확함
- 멀티모달 시스템 내 명시적인 탐지 메커니즘의 필요성 강조
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 비디오 이해 (Video Understanding) 분야에서 상당한 발전을 이루었으나, 응답의 신뢰성은 여전히 충분히 탐구되지 않은 상태입니다. 본 연구는 비디오 이해 상황에서 MLLM의 부재 정답 탐지 (Absent Answer Detection)에 대한 진단 연구를 제시합니다. 여기서 부재 정답 탐지란 정답을 후보군에서 의도적으로 제외했을 때, 신뢰할 수 있는 모델이라면 유효한 선택지가 존재하지 않음을 인식해야 하는 상황을 의미합니다. 우리는 세 가지 설정 하에서 부재 정답 탐지 동작을 평가합니다: "해당 사항 없음 (None of the Above)" 옵션이 추가된 객관식 질문, 탐지 지시문이 포함된 개방형 생성 (Open-ended Generation), 그리고 아무런 가이드가 없는 표준 평가입니다. 다양한 모델과 벤치마크를 통해 분석한 결과, MLLM은 부재 정답을 탐지하기보다는 그럴듯한 오답 (Distractors)을 압도적으로 선택한다는 것을 발견했습니다. 이러한 실패는 시간적 추론 (Temporal Reasoning) 작업에서 더 두드러지게 나타나며, 프레임 샘플링 (Frame Sampling) 밀도가 높아질수록 악화됩니다. 나아가 우리는 완화 전략으로서 사고 사슬 (Chain-of-Thought, CoT) 프롬프팅을 탐구하였으며, 이것이 탐지율을 실질적으로 향상시키기는 하지만 성능은 여전히 만족스럽지 못하다는 것을 확인했습니다. 이는 프롬프팅 기반 전략만으로는 이러한 한계를 완전히 해결하기에 불충분함을 시사합니다. 이러한 발견은 부재 정답 탐지에서의 체계적인 실패를 드러내며, 멀티모달 시스템에서 명시적인 탐지 메커니즘의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기