ADAPT: 충실한 MLLM을 위한 선호도 튜닝 기반의 어텐션 역학 정렬
요약
MLLM의 환각 문제를 해결하기 위해 텍1-이미지 교차 어텐션 역학을 정렬하는 ADAPT 프레임워크를 제안합니다. 어텐션 드리프트를 탐지하고 시각적 앵커를 통해 정렬함으로써 환각률을 40%-60% 감소시켰습니다.
핵심 포인트
- 텍스트-이미지 교차 어텐션의 저하를 환각의 주요 원인으로 식별
- 시각적 앵커를 통한 안정적인 공간적 접지 제공
- 어텐션 감독 추론 메커니즘으로 드리프트 실시간 수정
- Visual Attention Guidance DPO를 통한 선호도 정렬
- 주요 백본 모델에서 환각률을 최대 60% 감소시키며 SOTA 달성
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 제공된 이미지와 일치하지 않는 콘텐츠를 생성하는 환각 (hallucination) 문제로 인해 심각한 제약을 받고 있습니다. 본 논문에서 우리는 환각의 내부 시그니처(internal signature)를 식별합니다: 즉, 생성 과정 중 텍스트-이미지 교차 어텐션 (text-to-image cross-attention)의 점진적인 저하가 발생하며, 이는 초점이 맞지 않거나 편향된 어텐션과 같은 특정 실패 패턴으로 이어집니다. 기존의 완화 전략들은 주로 결과 중심적이며, 이러한 실패 모드를 명시적으로 겨냥하지 않습니다. 이 문제를 해결하기 위해, 우리는 텍스트-이미지 교차 어텐션 역학에 직접 개입하는 어텐션 기반 프레임워크인 ADAPT (Attention Dynamics Alignment with Preference Tuning)를 제안합니다. 우리는 세 가지 핵심 기여를 포함하는 ADAPT를 제안합니다: 안정적인 공간적 접지 (spatial grounding)를 제공하기 위해 초기 디코딩 단계부터 정제되는 교차 어텐션 시각적 앵커 (cross-attention visual anchor), 어텐션 드리프트 (attention drift)를 온라인으로 탐지하고 수정하는 어텐션 감독 추론 메커니즘 (attention-supervised inference mechanism), 그리고 시각적으로 접지된 응답을 향해 선호도를 정렬하는 시각적 어텐션 가이드 DPO (Visual Attention Guidance DPO)입니다. 실험 결과, ADAPT의 각 구성 요소는 환각 감소에 기여하며, 전체 프레임워크는 일반적인 멀티모달 능력을 유지하면서도 주요 백본 (backbones) 전반에서 환각률을 40%-60% 감소시켜 여러 환각 벤치마크에서 새로운 최고 성능을 달성했습니다. 우리의 연구는 모델의 내부 텍스트-이미지 교차 어텐션 동작을 탐구함으로써 환각을 완화하는 어텐션 기반의 관점을 제공합니다. 코드는 https://github.com/yao-ustc/ADAPT 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기