ADAPT: 충실한 MLLM을 위한 선호도 튜닝 기반의 어텐션 역학 정렬

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 제공된 이미지와 일치하지 않는 콘텐츠를 생성하는 환각 (hallucination) 문제로 인해 심각한 제약을 받고 있습니다. 본 논문에서 우리는 환각의 내부 시그니처(internal signature)를 식별합니다: 즉, 생성 과정 중 텍스트-이미지 교차 어텐션 (text-to-image cross-attention)의 점진적인 저하가 발생하며, 이는 초점이 맞지 않거나 편향된 어텐션과 같은 특정 실패 패턴으로 이어집니다. 기존의 완화 전략들은 주로 결과 중심적이며, 이러한 실패 모드를 명시적으로 겨냥하지 않습니다. 이 문제를 해결하기 위해, 우리는 텍스트-이미지 교차 어텐션 역학에 직접 개입하는 어텐션 기반 프레임워크인 ADAPT (Attention Dynamics Alignment with Preference Tuning)를 제안합니다. 우리는 세 가지 핵심 기여를 포함하는 ADAPT를 제안합니다: 안정적인 공간적 접지 (spatial grounding)를 제공하기 위해 초기 디코딩 단계부터 정제되는 교차 어텐션 시각적 앵커 (cross-attention visual anchor), 어텐션 드리프트 (attention drift)를 온라인으로 탐지하고 수정하는 어텐션 감독 추론 메커니즘 (attention-supervised inference mechanism), 그리고 시각적으로 접지된 응답을 향해 선호도를 정렬하는 시각적 어텐션 가이드 DPO (Visual Attention Guidance DPO)입니다. 실험 결과, ADAPT의 각 구성 요소는 환각 감소에 기여하며, 전체 프레임워크는 일반적인 멀티모달 능력을 유지하면서도 주요 백본 (backbones) 전반에서 환각률을 40%-60% 감소시켜 여러 환각 벤치마크에서 새로운 최고 성능을 달성했습니다. 우리의 연구는 모델의 내부 텍스트-이미지 교차 어텐션 동작을 탐구함으로써 환각을 완화하는 어텐션 기반의 관점을 제공합니다. 코드는 https://github.com/yao-ustc/ADAPT 에서 확인할 수 있습니다.

Insights

ADAPT: 충실한 MLLM을 위한 선호도 튜닝 기반의 어텐션 역학 정렬

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들