arXiv논문2026. 06. 26. 11:09

GAVEL: 근거 기반 캡션 오류 검증 및 위치 식별

요약

시각-언어 모델(VLM)의 환각 문제를 해결하기 위해 캡션 오류를 검증, 설명, 위치 식별하는 GAVEL 프레임워크를 제안합니다. 새로운 데이터셋과 벤치마크를 함께 공개하며, 지도 학습 베이스라인이 기존 폐쇄형 모델보다 우수한 성능을 보임을 입증했습니다.

핵심 포인트

VLM의 텍pic-이미지 불일치 및 환각 문제 해결을 위한 GAVEL 제안
오류 검증, 설명, 시각적 위치 식별을 통합적으로 수행
체계적 평가를 위한 전용 데이터셋 및 벤치마크 구축
지도 학습 베이스라인이 폐쇄형 모델 대비 높은 근거 제시 성능 확인

시각-언어 모델 (Vision-language models, VLMs)은 텍스트와 이미지가 적절히 정렬되지 않아 환각 (hallucinated) 또는 불일치하는 출력을 생성하는 경우가 많습니다. 이 문제를 해결하기 위해서는 불일치를 탐지할 뿐만 아니라, 그 차이를 설명하고 시각적 증거의 위치를 식별 (localizing)해야 합니다. 우리는 이미지-텍스트 쌍에 대해 검증 (verification), 설명 (explanation), 위치 식별 (localization)을 공동으로 다루는 작업인 GAVEL (Grounded Caption Error Verification and Localization)을 소개합니다. 체계적인 평가를 지원하기 위해, 우리는 그에 상응하는 데이터셋과 벤치마크도 함께 제시합니다. 나아가, GAVEL이 이러한 능력들에 대해 학습 가능한 지도 (learnable supervision)를 제공하는지 평가하기 위해 인간이 주석을 단 (human-annotated) 학습 분할 데이터로 지도 학습 베이스라인 (supervised baseline)을 훈련했습니다. 실험 결과, 강력한 폐쇄형 모델 (closed-source models)조차 GAVEL에서 어려움을 겪는 반면, 지도 학습 베이스라인은 근거 제시 (grounding) 및 설명 (explanation) 지표 전반에서 일관된 개선을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GAVEL: 근거 기반 캡션 오류 검증 및 위치 식별

요약

핵심 포인트

댓글