arXiv논문2026. 04. 29. 12:49

Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models

요약

본 논문은 대형 시공간 언어 모델(LVLMs)의 신뢰성을 저해하는 환각 문제를 해결하기 위해 'Prefill-Time Intervention (PTI)'라는 새로운 패러다임을 제안합니다. 기존 연구들이 디코딩 단계에만 초점을 맞춰 오류 누적을 막지 못했던 한계를 극복하고, 초기 Key-Value(KV) 캐시를 모달리티 인식 방식으로 개선하여 환각의 근원적인 발생 가능성을 수정합니다. PTI는 시각적 객체 기반 키 유도와 배경 노이즈 필터링 값 분리를 통해 뛰어난 성능과 범용성을 입증했습니다.

핵심 포인트

LVLMs의 주요 문제점은 환각(hallucination)으로 인한 신뢰성 저하이며, 기존 연구는 디코딩 단계에만 집중하여 오류 누적 문제를 해결하지 못했다.
제안된 Prefill-Time Intervention (PTI)은 오차가 누적되기 전인 초기 Key-Value 캐시를 개선하는 새로운 스티어링 패러다임이다.
PTI는 모달리티 인식(modality-aware) 방식으로, 키(keys)는 시각적 객체에 집중시키고 값(values)은 배경 노이즈 필터링을 통해 환각의 근원을 수정한다.
PTI는 기존 디코딩 단계 방법론과 직교하여 플러그 앤 플레이 통합이 가능하며, 다양한 LVLMs와 벤치마크에서 우수한 일반화 성능을 보인다.

대형 시공간 언어 모델 (Large Vision-Language Models, LVLMs) 은 시각적·텍스트적 이해 분야에서 괄목할 만한 진전을 이루었으나, 환각(hallucinations) 즉 사실과 맞지 않거나 일관성이 없는 응답을 생성하는 현상으로 인해 신뢰성은 근본적으로 훼손되고 있습니다. 최근 연구들은 스티어링 벡터 (steering vectors) 를 활용하여 환각을 줄이는 데 성공했지만, 여전히 해결되지 않은 중요한 과제가 존재합니다. 그것은 바로 잔여 환각의 심각성을 우연히 증폭시킨다는 점입니다. 우리는 이를 오직 디코딩 단계(decoding stage) 에만 초점을 맞추기 때문으로 귀속합니다. 이 단계에서는 오류가 자동 회귀 방식으로 누적되어 이후의 환각적 출력을 점차 악화시키기 때문입니다.

이를 해결하기 위해, 우리는 오차가 누적되기 전에 초기 Key-Value (KV) 캐시를 향상시키는 새로운 스티어링 패러다임인 Prefill-Time Intervention (PTI) 을 제안합니다. 구체적으로 PTI 는 모달리티 인식 (modality-aware) 으로, 시각적 표현과 텍스트적 표현에 대해 각각 다른 방향을 유도합니다. 이 개입은 키 (keys) 를 시각적으로 근거를 가진 객체로 이끌고, 값 (values) 을 배경 노이즈를 필터링하도록 분리(decoupled)되어, 환각이 발생하기 쉬운 표현의 근원에서 이를 수정합니다.

광범위한 실험 결과는 PTI 가 환각을 완화하는 데 있어 탁월한 성능과 다양한 디코딩 전략, LVLMs 및 벤치마크에 대한 일반화 능력을 입증했습니다. 또한 PTI 는 기존 디코딩 단계 방법론과 직교 (orthogonal) 하여 플러그 앤 플레이 (plug-and-play) 통합이 가능하고, 이를 통해 성능을 더욱 향상시킬 수 있습니다. 코드는 다음 주소에서 이용 가능합니다: https://github.com/huaiyi66/PTI.

AI 자동 생성 콘텐츠

원문 바로가기

Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models

요약

핵심 포인트

댓글