환각을 완화하기 위해 정말 외부 도구가 필요할까? SIRA: Attribution의 공유 접두사 내부 재구성
요약
본 논문은 대규모 시각-언어 모델(LVLMs)이 모호한 시각적 증거로 인해 환각을 일으키는 문제를 다루며, 이를 해결하기 위해 외부 도구 없이 내부에서 반사실적 참조를 구축하는 새로운 프레임워크인 SIRA를 제안합니다. SIRA는 공유 접두사를 통해 이미지와 텍스트 토큰의 상호작용을 유지하면서, 트랜스포머 후기 레이어에서 시각적 증거 접근이 제한된 내부 대조적 분기를 생성하여 언어적 사전 지식 중심의 참조를 만듭니다. 실험 결과, SIRA는 기존의 다중 패스 디코딩 방식보다 낮은 오버헤드로 환각을 효과적으로 줄이는 것으로 나타났습니다.
핵심 포인트
- SIRA(Shared Prefix Attribution)는 외부 도구 없이 LVLM 내부에서 반사실적 참조를 구축하는 프레임워크이다.
- 공유 접두사 메커니즘을 활용하여 이미지와 텍스트 토큰의 초기 상호작용 및 구조를 보존한다.
- 후기 레이어에서 시각적 증거 접근이 제한된 '반사실적 분기'를 생성하여 언어적 사전 지식 중심의 내부 참조를 만든다.
- SIRA는 학습, 외부 검증기, 섭동된 입력 없이도 적용 가능하며, 기존 방식 대비 낮은 오버헤드를 가진다.
대규모 시각-언어 모델 (Large vision-language models, LVLMs)은 언어적 사전 지식 (language priors)이 약하거나 모호한 시각적 증거를 압도할 때 종종 환각 (hallucinate)을 일으킵니다. 기존의 대조적 디코딩 (contrastive decoding) 방법들은 원본 이미지의 예측값과 외부에서 섭동 (perturbed)을 가한 시각적 입력의 예측값을 비교함으로써 이 문제를 완화하지만, 이러한 참조값은 데이터 분포를 벗어난 아티팩트 (off-manifold artifacts)를 유발할 수 있으며 비용이 많이 드는 추가적인 순전파 (forward passes) 과정을 요구합니다.
우리는 멀티모달 트랜스포머 (multimodal transformers)의 단계별 정보 흐름을 활용하여 동일한 LVLM 내부에서 반사실적 참조 (counterfactual reference)를 구축하는 학습이 필요 없는 내부 대조적 디코딩 프레임워크인 SIRA를 제안합니다. SIRA는 입력에서 시각적 정보를 제거하는 대신, 먼저 이미지와 텍스트 토큰이 공유 접두사 (shared prefix)를 통해 상호작용하게 하여 프롬프트 해석, 디코딩 이력, 위치 구조 (positional structure), 그리고 초기 시각적 접지 (early visual grounding)를 보존하는 정렬된 멀티모달 상태를 형성합니다. 그 후 트랜스포머의 후기 레이어에서 이미지 토큰 위치에 대한 어텐션 (attention)이 마스킹된 반사실적 분기 (counterfactual branch)를 생성합니다. 이 분기는 공유된 멀티모달 컨텍스트는 유지하지만 세밀한 시각적 증거에 대한 지속적인 접근은 제한되므로, 토큰 수준의 대조를 위한 언어적 사전 지식 중심의 내부 참조를 생성합니다.
디코딩 과정에서 SIRA는 후기 시각적 접근 없이도 강하게 유지되는 토큰을 억제하고, 전체 시각적 경로 (visual pathway)에 의존할 때 이점이 발생하는 예측을 선호합니다. Qwen2.5-VL 및 LLaVA-v1.5를 사용하여 POPE, CHAIR, AMBER에서 수행한 실험 결과, SIRA는 묘사 범위 (descriptive coverage)를 유지하면서도 환각을 일관되게 감소시키며, 2-패스 대조적 디코딩 (two-pass contrastive decoding)보다 낮은 오버헤드를 발생시킴을 보여주었습니다. SIRA는 학습, 외부 검증기 (external verifier), 또는 섭동된 입력이 필요하지 않으며, 화이트박스 추론 (white-box inference) 접근이 가능한 오픈 웨이트 (open-weight) LVLM에 적용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기