arXiv논문2026. 06. 01. 12:37

세밀한 시각적 불일치로부터의 학습: 인컨텍스트 시각적 대조 최적화를 통한 멀티모달 환각 완화

요약

멀티모달 환각을 완화하기 위해 인컨텍스트 시각적 대조 최적화(IC-VCO)를 제안하는 연구입니다. 수학적으로 엄밀한 목적 함수를 보장하고, VCDist와 샘플 편집 전략을 통해 시각-언어 모델의 성능을 개선했습니다.

핵심 포인트

IC-VCO를 통한 수학적으로 일관된 목적 함수 보장
VCDist를 도입하여 다중 이미지 컨텍스트 내 일관성 강화
의미론적 섭동을 활용한 정밀한 하드 네거티브 샘플 생성
5개 벤치마크 실험을 통해 멀티모달 환각 완화 효과 입증

멀티모달 환각 (Multimodal hallucination)은 시각-언어 모델 (Vision-Language Models, VLMs)에게 지속적인 과제로 남아 있습니다. 표준적인 텍스트 기반 직접 선호 최적화 (Direct Preference Optimization, DPO)는 명시적인 시각적 감독 (visual supervision)의 부재로 인해 이를 완화하는 데 종종 실패합니다. 기존 연구들은 원본 이미지를 부정적인 이미지와 대조함으로써 시각적 선호 DPO를 도입했지만, 이들은 파티션 함수 (partition function) 불일치로 인해 발생하는 이론적으로 일관되지 않은 목적 함수를 갖는 문제와, 지름길 학습 (shortcut learning)을 유발할 수 있는 거친 입도 (coarse-grained)의 부정적 샘플에 의존한다는 문제를 안고 있습니다.

본 연구에서는 인컨텍스트 시각적 대조 최적화 (In-Context Visual Contrastive Optimization, IC-VCO)를 제안합니다. IC-VCO는 대조 이미지를 공유된 다중 이미지 컨텍스트 (multi-image context) 내에 배치함으로써 수학적으로 엄밀한 목적 함수를 보장합니다. 나아가, 우리는 다중 이미지 대조 학습과 단일 이미지 추론 사이의 일관성을 장려하는 보조적인 신뢰성 게이트 정규화 도구 (reliability-gated regularizer)인 시각적 대조 증류 (Visual Contrast Distillation, VCDist)를 도입합니다. 마지막으로, 정밀한 의미론적 섭동 (semantic perturbations)을 통해 어려운 부정적 샘플 (hard negatives)을 생성하는 대조 샘플 편집 전략을 제안합니다. 5개의 벤치마크에 대한 실험을 통해 IC-VCO의 최고의 전반적인 성능과 우리의 샘플 편집 전략의 효과를 입증합니다. 코드와 데이터는 https://github.com/OPPO-Mente-Lab/IC-VCO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

세밀한 시각적 불일치로부터의 학습: 인컨텍스트 시각적 대조 최적화를 통한 멀티모달 환각 완화

요약

핵심 포인트

댓글