Gaze Heads: 시각-언어 모델(VLM)이 설명하는 대상을 바라보는 방식
요약
시각-언어 모델(VLM) 내에서 이미지의 특정 영역을 추적하는 '게이즈 헤드(gaze heads)'의 존재를 발견했습니다. 이 헤드들을 제어함으로써 재학습 없이도 모델이 설명하는 대상을 원하는 영역으로 유도할 수 있음을 증명했습니다.
핵심 포인트
- VLM 내 특정 어텐션 헤드가 이미지 영역을 추적하는 '게이즈 헤드' 역할 수행
- 상위 100개의 게이즈 헤드 제어만으로 답변 대상을 83.1% 정확도로 유도 가능
- 추론 시간 제어(inference-time control)를 통한 멀티모달 모델 동작 유도 가능성 확인
- 2B~32B 규모의 다양한 VLM 아키텍처에서 해당 메커니즘 재현 확인
시각-언어 모델(VLM)이 이미지를 설명하는 작업을 내부적으로 어떻게 해결하는지는 결코 명확하지 않습니다. 우리는 모델이 이를 위해 특정 메커니즘을 개발한다는 것을 발견했습니다. 즉, 언어 모델 백본(backbone) 내의 작은 어텐션 헤드(attention heads) 세트가 존재하며, 우리는 이를 '게이즈 헤드(gaze heads)'라고 부릅니다. 이 헤드들의 어텐션은 모델이 현재 설명하고 있는 이미지 영역을 추적합니다. 우리는 서사적 순서가 공간적으로 배치된 만화(comic strips)를 통제된 테스트베드로 사용하여, 몇 번의 순전파(forward passes)로부터 얻은 간단한 상관관계 점수를 통해 이들을 찾아냈습니다. 이 게이즈 헤드들은 단순히 설명되고 있는 이미지 토큰을 추적하는 것에 그치지 않습니다. 이들의 어텐션을 선택된 영역으로 재지정하면, VLM은 대신 해당 영역을 설명하도록 강제됩니다. 전체 헤드의 9% 미만인 상위 100개의 게이즈 헤드에 대해 단 한 번의 어텐션 마스크(attention-mask) 개입을 수행하는 것만으로도, 모델의 답변을 원하는 만화 칸으로 83.1%의 정확도로 유도할 수 있습니다. 반면, 무작위 헤드에 동일한 개입을 했을 때는 답변을 재지정하는 데 실패했으며, 모든 헤드에 개입했을 때는 생성 능력이 파괴되었습니다. 이와 동일한 제어 수단은 연속적인 제어(continuous control)로도 확장됩니다. 생성 중간에 게이즈 대상(gaze target)을 전환하면, 모델은 몇 개의 토큰 이내에 현재 칸에 대한 설명을 마무리하고 새로운 칸으로 이동합니다. 만화를 넘어, 동일한 개입은 자연스러운 COCO 이미지 내의 선택된 영역으로 답변을 재지정합니다. 이 메커니즘은 2B에서 32B 파라미터에 이르는 모델 크기와 다른 VLM 아키텍처 전반에 걸쳐 재현되지만, 일부 고정된 인코더(frozen-encoder) 계열에서는 이와 유사한 헤드 세트가 나타나지 않습니다. 더 넓게는, 이는 기계론적 분석(mechanistic analysis)을 통해 식별된 표적 편집(targeted edits)이 재학습 없이도 멀티모달 모델의 동작을 유도하기 위한 실질적인 추론 시간 제어 수단(inference-time levers)으로 기능할 수 있음을 보여줍니다. 우리의 코드, 인터랙티브 데모 및 데이터셋은 https://gaze.baulab.info/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기