본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 21. 03:22

시각이 소리를 대변할 때

요약

비디오 지원 MLLMs가 실제 오디오를 분석하는 대신 시각적 정보에만 의존하여 소리를 잘못 추론하는 현상을 다룹니다. 이러한 현상은 모델이 시각적 단서로부터 오디오를 환각하는 '오디오-비주얼 Clever Hans 효과'로 정의됩니다.

핵심 포인트

  • 비디오 지원 MLLMs의 오디오 환각(hallucination) 문제 발생
  • 실제 소리 대신 시각적 단서에 의존하여 오디오를 추론하는 경향
  • 이러한 실패 모드를 '오디오-비주얼 Clever Hans 효과'라고 명명

시각이 소리를 대변할 때

비디오 지원 MLLMs (Multimodal Large Language Models)는 실제 소리를 확인하는 대신 시각적 단서로부터 오디오를 환각 (hallucinate) 하는 경우가 많으며, 이러한 실패 모드를 오디오-비주얼 Clever Hans 효과 (audio-visual Clever Hans effect)라고 부릅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0