arXiv논문2026. 05. 28. 13:21

시각-언어 인과 추론에서의 추상화 격차 (The Abstraction Gap in Vision-Language Causal Reasoning)

요약

시각-언어 모델(VLM)의 언어적 타당성과 실제 인과 추론 능력 사이의 격차를 분석한 연구입니다. 이중 프로브 방법론과 CAGE 벤치마크를 통해 모델들이 유창한 설명은 생성하지만 실제 인과 관계 추론에는 취약함을 입증했습니다.

핵심 포인트

언어적 타당성과 충실한 인과 추론을 구분하는 이중 프로브 방법론 제안
CAGE 벤치마크를 통해 VLM의 인과 추론 격차(Abstraction Gap) 정량화
대부분의 VLM이 높은 언어 점수 대비 낮은 인과 체인 점수를 기록
미세 조정만으로는 인과 추론 격차를 해소하기 어려움이 확인됨

시각-언어 모델 (Vision-language models, VLMs)은 유창한 인과적 설명 (causal explanations)을 생성하지만, 현재의 평가 방식으로는 언어적 타당성 (linguistic plausibility)과 충실한 인과 추론 (faithful causal reasoning)을 구분할 수 없습니다. 우리는 이러한 속성들을 분리하는 이중 프로브 (dual-probe) 방법론을 소개합니다. 텍스트 전용 프로브 (Text-Only Probe)는 언어적 품질을 측정합니다. 체인-텍스트 프로브 (Chain-Text Probe)는 모델이 먼저 명시적인 인과 체인 (causal chains)을 생성하도록 요구합니다. 추상화 격차 (Abstraction Gap, AG) 지표는 정규화된 성능 차이를 정량화합니다. Pearl의 인과 계층 (causal hierarchy)에 걸쳐 5,500개의 이미지와 49,500개의 질문으로 구성된 벤치마크인 CAGE (Causal Abstraction Gap Evaluation)를 통해 8개의 VLM을 평가한 결과, 7개의 모델이 텍스트 점수는 6~8점이지만 체인 점수는 2.5점 미만으로, 0.50을 초과하는 AG를 보이는 것을 발견했습니다. 45,000개의 체인 주석이 달린 예시로 미세 조정 (Fine-tuning)을 수행했음에도 격차를 줄이는 데 실패했습니다. 그러나 한 모델은 0에 가까운 AG를 달성했습니다. 이러한 능력은 현재의 VLM 아키텍처 내에 존재하며, 사전 학습 (pretraining) 및 아키텍처 선택에 따라 달라집니다. CAGE는 VLM의 충실한 인과 추론을 평가하기 위한 진단 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각-언어 인과 추론에서의 추상화 격차 (The Abstraction Gap in Vision-Language Causal Reasoning)

요약

핵심 포인트

댓글