arXiv논문2026. 05. 21. 11:11

망각 없이 올바른 시각적 증거 찾기: 계층 간 시각적 어텐션 불일치를 통한 LVLM의 환각 완화

요약

본 연구는 LVLM이 생성 과정에서 시각적 증거에 대한 주의를 점진적으로 망각하여 환각을 일으킨다는 점을 발견하고, 이를 해결하기 위한 ILVAD(Inter-Layer Visual Attention Discrepancy) 방법을 제안합니다. 계층 간 시각적 어텐션 불일치를 활용해 시각적 증거를 강화하는 돌출 맵(saliency map)을 형성하며, 별도의 학습이 필요 없는 플러그 앤 플레이 방식으로 환각을 완화합니다.

핵심 포인트

LVLM의 환각은 모델의 특정 계층에서 시각적 증거에 대한 주의력이 불일치하고 점진적으로 망각될 때 발생함
ILVAD는 계층 간 어텐션 가중치를 분석하여 시각적 증거로 반복 활성화되는 토큰을 식별하고 돌출 맵을 생성함
생성 과정 중 시각적 증거에 대한 어텐션을 강화하고, 시각적 근거가 강력한 텍스트 토큰을 선택하여 강조함
추가 학습이 필요 없는 training-free 방식이며, 다양한 아키텍처의 LVLM에서 일관된 환각 완화 성능을 입증함

대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 광범위한 시각-언어 작업에서 놀라운 성능을 보여주었습니다. 이러한 발전에도 불구하고, 이들은 여전히 시각적 콘텐츠와 일치하지 않는 응답을 생성하는 환각 (hallucination) 현상에 취약합니다. 본 연구에서 우리는 LVLM이 올바른 시각적 증거에 충분한 주의 (attention)를 기울이지 못하고, 생성 과정 중에 이를 점진적으로 망각할 때 환각을 일으키는 경향이 있음을 발견했습니다. 우리는 실험적으로 LVLM이 전반적으로 시각적 증거에 충분히 주의를 기울이지 못하지만, 특정 계층 (layers)에서는 올바른 시각적 증거에 대한 민감도를 보이며 주목할 만한 계층 간 불일치 (inter-layer discrepancy)를 나타낸다는 것을 발견했습니다. 이러한 관찰에 착안하여, 우리는 계층 간 시각적 어텐션 불일치 (Inter-Layer Visual Attention Discrepancy, ILVAD)를 기반으로 시각적 증거를 강화하는 새로운 환각 완화 방법을 제안합니다. 구체적으로, 우리는 여러 계층에 걸쳐 초기 생성된 토큰 (tokens)에서 시각적 토큰 (visual tokens)으로 향하는 어텐션 가중치 (attention weights)를 얻고, 시각적 증거로서 반복적으로 활성화되는 토큰을 식별하여 돌출 맵 (saliency map)을 형성합니다. 그런 다음, 시각적 망각을 줄이기 위해 돌출 맵을 통해 생성 과정 중 시각적 증거에 대한 어텐션을 강화합니다. 또한, 우리는 돌출 맵을 활용하여 생성된 텍스트가 시각적 증거에 대해 갖는 어텐션 점수를 얻음으로써, 시각적 증거에 강력하게 근거 (grounded)를 둔 텍스트 토큰을 선택하고 강조합니다. 우리의 방법은 별도의 학습이 필요 없는 (training-free) 플러그 앤 플레이 (plug-and-play) 방식입니다. 최근 출시된 5개의 모델을 대상으로 수행된 여러 벤치마크 평가 결과, 우리의 방법이 다양한 아키텍처를 가진 서로 다른 LVLM에서 일관되게 환각을 완화할 수 있음을 보여줍니다. 코드는 https://github.com/ytx-ML/ILVAD 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

망각 없이 올바른 시각적 증거 찾기: 계층 간 시각적 어텐션 불일치를 통한 LVLM의 환각 완화

요약

핵심 포인트

댓글