본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:47

부분 정보 분해(Partial Information Decomposition)를 통한 멀티모달 언어 모델의 모달리티 상호작용 이해 연구

요약

본 연구는 부분 정보 분해(PID) 프레임워크를 통해 멀티모달 언어 모델(MLLM) 내 모달리티 간의 고유, 중복, 시너지 기여도를 분석합니다. 이를 통해 작업 유형별 모달리티 의존성을 파악하고, Sensory PID를 통해 옴니모달 모델의 정보 융합 특성을 규명합니다.

핵심 포인트

  • PID를 통한 모달리티 간 고유·중복·시너지 기여도 분리
  • 추론 작업은 높은 시너지, 지식 작업은 언어 의존성이 높음
  • Sensory PID를 통한 삼중 모달 시스템 확장 및 분석
  • PID 가이드 재가중치를 통한 멀티모달 성능 향상 가능성 확인

멀티모달 거대 언어 모델 (MLLMs)에서 모달리티 상호작용 (modality interaction)을 이해하는 것은 신뢰할 수 있는 배포를 위한 핵심 요소입니다. 본 연구에서는 표현 정렬 (representation alignment) 및 결과 기반 평가 (outcome-based evaluation)를 넘어, 감각적 입력과 언어적 입력의 고유한 (unique), 중복된 (redundant), 그리고 시너지적인 (synergistic) 기여를 분리하는 의사결정 수준의 프레임워크로서 부분 정보 분해 (Partial Information Decomposition, PID)를 소개합니다. 시각-언어 벤치마크 전반에 걸쳐, PID는 반복되는 모달리티 사용 프로파일을 드러냅니다. 추론 (reasoning) 및 접지 (grounding) 지향적 작업은 높은 시너지 (synergy)를 보이는 경향이 있는 반면, 전문가 및 지식 지향적 작업은 언어 고유의 의존성 (language-unique reliance)을 더 강하게 보여줍니다. 이러한 프로파일은 모델 제품군 전반에 걸쳐 일반화되며, 모달리티 수준의 개입 (modality-level interventions)에 대한 민감도를 예측합니다. 나아가 우리는 언어를 제어 변수 (control variable)로 취급하여 비디오-오디오 정보 이득 (information gain)을 분해하는 Sensory PID를 통해 PID를 삼중 모달 (tri-modal) 시스템으로 확장합니다. 옴니모달 (omni-modal) 모델에 적용했을 때, Sensory PID는 오디오-비주얼 융합 (audio--visual fusion) 작업에서도 시각 정보가 지배하는 감각적 시너지 병목 현상 (sensory synergy bottleneck)을 드러냅니다. 마지막으로, PID 가이드 재가중치 (PID-guided reweighting)는 멀티모달 추론 및 접지 성능을 향상시키는 것에 대한 초기 증거를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0