arXiv논문2026. 06. 29. 10:55

Vision-Default, Prior-Override: 시각-언어 모델(VLM)에서 지각-지식 충돌의 인과적 메커니즘

요약

VLM에서 시각적 증거와 사전 지식이 충돌할 때 발생하는 인과적 메커니즘을 분석한 연구입니다. 특정 어텐션 헤드가 사전 지식을 유지하는 데 핵심적인 역할을 하며, 시각 정보와 지식 정보 간의 비대칭적 인과 구조를 규명했습니다.

핵심 포인트

시각적 접지는 기본값인 반면, 사전 지식은 소수의 특정 어텐션 헤드에 의존함
식별된 헤드는 라우팅 헤드와 라이팅 헤드로 기능하며 정보 흐름을 조절함
시각 정보와 지식 정보 간의 비대칭적 인과 회로가 모델 규모와 관계없이 존재함
활성화 패칭을 통해 지식 기반 답변의 인과적 필수성을 입증함

시각-언어 모델(Vision-language models)은 시각적 증거와 암기된 세상 지식이 충돌할 때 이를 조화시켜야 합니다. 모델이 이러한 충돌을 어떻게 해결하느냐에 따라 멀티모달(multimodal) 시스템의 신뢰성이 결정되지만, 기존 연구들은 구성 요소 수준의 인과적 설명 없이 이를 행동학적으로만 규정해 왔습니다. 본 연구에서는 세 가지 세분화된 수준(잔차 스트림 (residual stream), 어텐션 헤드 (attention heads), MLP 서브레이어 (MLP sublayers))에 걸친 활성화 패칭 (activation patching)을 모델 구성 요소 제거 연구 (model-component ablation studies) 및 기계론적 분석 (mechanistic analysis)과 결합합니다. 세 가지 VLM 제품군을 대상으로 분석한 결과, 시각적 접지 (visual grounding)는 기본값(default)으로 나타나는 반면, 사전 지식 접지 (prior grounding)는 네트워크의 후반부에 집중된 소수의 인과적으로 필수적인 어텐션 헤드(2.5-4.8%)에 의존한다는 것을 발견했습니다. 이 헤드들은 상충하는 시각적 입력에도 불구하고 저장된 세상 지식으로부터의 답변(예: 딸기에 대해 "빨간색"이라고 답변)을 가능하게 합니다. 사전 지식 프롬프트(prior-knowledge prompts) 상황에서 이 헤드들을 제거하면 예측이 지식 기반 답변에서 시각 기반 답변으로 68-96%의 사례에서 전환되지만, 시각 기반 예측은 0.8-7.5%만 변화하여 비대칭적 인과 구조를 확립합니다. 식별된 헤드들은 정보 흐름을 조절하는 라우팅 헤드 (routing heads)와 답변 토큰을 잔차 스트림 (residual stream)으로 직접 투영하는 라이팅 헤드 (writing heads)로 분해됩니다. 이러한 구조는 모델 제품군과 규모에 관계없이 일관되게 나타나며, VLM의 지각-지식 충돌의 기저에 있는 희소한 인과 회로 (sparse causal circuit)를 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

Vision-Default, Prior-Override: 시각-언어 모델(VLM)에서 지각-지식 충돌의 인과적 메커니즘

요약

핵심 포인트

댓글