시각이 소리를 대변할 때
요약
비디오 지원 MLLMs가 실제 오디오를 분석하는 대신 시각적 정보에만 의존하여 소리를 잘못 추론하는 현상을 다룹니다. 이러한 현상은 모델이 시각적 단서로부터 오디오를 환각하는 '오디오-비주얼 Clever Hans 효과'로 정의됩니다.
핵심 포인트
- 비디오 지원 MLLMs의 오디오 환각(hallucination) 문제 발생
- 실제 소리 대신 시각적 단서에 의존하여 오디오를 추론하는 경향
- 이러한 실패 모드를 '오디오-비주얼 Clever Hans 효과'라고 명명
시각이 소리를 대변할 때
비디오 지원 MLLMs (Multimodal Large Language Models)는 실제 소리를 확인하는 대신 시각적 단서로부터 오디오를 환각 (hallucinate) 하는 경우가 많으며, 이러한 실패 모드를 오디오-비주얼 Clever Hans 효과 (audio-visual Clever Hans effect)라고 부릅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기