환각을 완화하기 위해 정말 외부 도구가 필요할까? SIRA: Attribution의 공유 접두사 내부 재구성

대규모 시각-언어 모델 (Large vision-language models, LVLMs)은 언어적 사전 지식 (language priors)이 약하거나 모호한 시각적 증거를 압도할 때 종종 환각 (hallucinate)을 일으킵니다. 기존의 대조적 디코딩 (contrastive decoding) 방법들은 원본 이미지의 예측값과 외부에서 섭동 (perturbed)을 가한 시각적 입력의 예측값을 비교함으로써 이 문제를 완화하지만, 이러한 참조값은 데이터 분포를 벗어난 아티팩트 (off-manifold artifacts)를 유발할 수 있으며 비용이 많이 드는 추가적인 순전파 (forward passes) 과정을 요구합니다.

우리는 멀티모달 트랜스포머 (multimodal transformers)의 단계별 정보 흐름을 활용하여 동일한 LVLM 내부에서 반사실적 참조 (counterfactual reference)를 구축하는 학습이 필요 없는 내부 대조적 디코딩 프레임워크인 SIRA를 제안합니다. SIRA는 입력에서 시각적 정보를 제거하는 대신, 먼저 이미지와 텍스트 토큰이 공유 접두사 (shared prefix)를 통해 상호작용하게 하여 프롬프트 해석, 디코딩 이력, 위치 구조 (positional structure), 그리고 초기 시각적 접지 (early visual grounding)를 보존하는 정렬된 멀티모달 상태를 형성합니다. 그 후 트랜스포머의 후기 레이어에서 이미지 토큰 위치에 대한 어텐션 (attention)이 마스킹된 반사실적 분기 (counterfactual branch)를 생성합니다. 이 분기는 공유된 멀티모달 컨텍스트는 유지하지만 세밀한 시각적 증거에 대한 지속적인 접근은 제한되므로, 토큰 수준의 대조를 위한 언어적 사전 지식 중심의 내부 참조를 생성합니다.

디코딩 과정에서 SIRA는 후기 시각적 접근 없이도 강하게 유지되는 토큰을 억제하고, 전체 시각적 경로 (visual pathway)에 의존할 때 이점이 발생하는 예측을 선호합니다. Qwen2.5-VL 및 LLaVA-v1.5를 사용하여 POPE, CHAIR, AMBER에서 수행한 실험 결과, SIRA는 묘사 범위 (descriptive coverage)를 유지하면서도 환각을 일관되게 감소시키며, 2-패스 대조적 디코딩 (two-pass contrastive decoding)보다 낮은 오버헤드를 발생시킴을 보여주었습니다. SIRA는 학습, 외부 검증기 (external verifier), 또는 섭동된 입력이 필요하지 않으며, 화이트박스 추론 (white-box inference) 접근이 가능한 오픈 웨이트 (open-weight) LVLM에 적용 가능합니다.

Insights

환각을 완화하기 위해 정말 외부 도구가 필요할까? SIRA: Attribution의 공유 접두사 내부 재구성

요약

핵심 포인트

댓글

한 은행이 대출 승인을 더 빠르게 하기 위해 AI를 사용하고 싶어 했습니다. 제가 NestJS로 그 주변에 구축할 것들

내 친구가 안드로이드 폰 자체에서 실행되는 멀티 에이전트 Claude Code 오케스트레이터를 만들었습니다

원유 및 채권 수익률 상승에 따라 주가지수 하락

Sihl, 라벨 컨버터를 위한 수성 잉크젯 코팅 PE 필름 출시

한 은행이 대출 승인을 더 빠르게 하기 위해 AI를 사용하고 싶어 했습니다. 제가 NestJS로 그 주변에 구축할 것들

내 친구가 안드로이드 폰 자체에서 실행되는 멀티 에이전트 Claude Code 오케스트레이터를 만들었습니다

원유 및 채권 수익률 상승에 따라 주가지수 하락

Sihl, 라벨 컨버터를 위한 수성 잉크젯 코팅 PE 필름 출시