arXiv논문2026. 04. 30. 13:45

정직한 대형 비전-언어 모델의 지식 경계 delineating

요약

본 논문은 대형 비전-언어 모델(VLMs)이 전문적이거나 긴 꼬리 도메인에서 사실적 환각에 취약하고, 자신의 지식 경계를 명확히 인식하는 능력이 부족하다는 문제를 다룹니다. 연구진은 'Visual-Idk' 데이터셋을 구축하여 알려진 사실과 알 수 없는 사실을 구별하도록 모델의 거부 능력을 향상시키는 체계적인 프레임워크를 제안했습니다. 이 방법론은 지도 미세 조정(SFT)과 선호도 인식 최적화(DPO/ORPO)를 결합하여, VLMs가 자신의 지식 한계를 효과적으로 인지하고 더 신뢰할 수 있는 응답을 생성하도록 개선합니다.

핵심 포인트

VLMs는 전문 도메인에서 사실적 환각에 취약하며, 알려지지 않은 질문에 대한 거부 능력이 약하다는 문제점을 해결하는 데 초점을 맞췄다.
알려진 사실과 알 수 없는 사실을 구별하기 위해 'Visual-Idk'라는 모델 특이적 데이터셋을 구축했다.
제안된 프레임워크는 지도 미세 조정(SFT)과 DPO/ORPO와 같은 선호도 인식 최적화를 결합하여 지식 경계를 명확히 한다.
실험 결과, 이 방법론은 진실성 비율을 유의미하게 향상시켰으며, 모델이 단순히 거부 패턴을 암기하는 것이 아니라 실제로 자신의 한계를 인지함을 입증했다.

대형 비전-언어 모델 (VLMs) 은 놀라운 다중 모드 성능을 달성했지만, 특히 긴 꼬리 또는 전문 도메인에서 사실적 환각에 여전히 취약합니다. 또한, 현재 모델은 파라메트릭 지식을 초과하는 쿼리를 거부할 수 있는 약한 능력을 보입니다. 본 논문에서는 이러한 알려지지 않은 질문을 마주했을 때 VLMs 의 거부 능력을 향상시키기 위한 체계적인 프레임워크를 제안합니다. 우리는 먼저 다중 샘플 일관성 탐지를 활용하여 알려진 사실과 알려지지 않은 사실을 구별하기 위해 모델 특이적 "Visual-Idk" (Visual-I don't know) 데이터셋을 구성했습니다. 그 다음, 감독된 미세 조정 (supervised fine-tuning) 을 수행한 후 선호도 인식 최적화 (예: DPO, ORPO) 를 사용하여 모델의 지식 경계를 효과적으로 delineate 합니다. Visual-Idk 데이터셋에 대한 결과에서 우리의 방법은 진실성 비율 (Truthful Rate) 을 57.9% 에서 67.3% 로 향상시켰습니다. 또한 내부 탐지는 모델이 단순히 거부 패턴을 기억하는 것이 아니라 진정으로 자신의 경계를 인식하고 있음을 보여줍니다. 우리의 프레임워크는 분포 밖 의학적 및 지각 도메인으로도 일반화되어 더 신뢰할 수 있고 신중한 시각적 보조자를 향한 견고한 길을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

정직한 대형 비전-언어 모델의 지식 경계 delineating

요약

핵심 포인트

댓글