arXiv논문2026. 05. 07. 17:29

다중모달 대형 언어 모델 (MLLM) 을 위한 불확실성 인지 탐색적 직접 선호 최적화 (UE-DPO)

요약

본 논문은 다중모달 대형 언어 모델(MLLMs)의 환각 문제를 해결하기 위해 '불확실성 인지 탐색적 직접 선호 최적화(UE-DPO)'라는 새로운 방법을 제안합니다. 이 방법은 토큰 수준의 인식적 불확실성을 활용하여, 모델이 자신의 지식적 결함을 스스로 발견하고 적극적으로 수정하도록 유도하는 것이 핵심입니다. UE-DPO는 불확실성 인지 탐색 강도를 기반으로 시각적 결핍 토큰에 대한 학습 압력을 강화함으로써, MLLMs의 정렬(alignment)을 더욱 깊고 견고하게 만듭니다.

핵심 포인트

MLLMs의 환각 완화를 위해 DPO를 활용하는 것이 효과적이지만, 기존 방법은 자기 참조 편향으로 인해 중요한 세부 사항 학습에 한계가 있었습니다.
제안된 UE-DPO는 토큰 수준의 인식적 불확실성(epistemic uncertainty)을 정량화하여 모델이 자신의 인지적 결함을 스스로 발견하게 합니다.
UE-DPO는 불확실성 인지 탐색 강도를 기반으로 시각적 결핍 토큰에 대한 학습 압력을 강화하고, 과잉 처벌을 완화합니다.
본 연구는 UE-DPO의 이론적 근거를 제시하고 광범위한 실험을 통해 그 효과성과 견고성을 입증했습니다.

"Direct Preference Optimization (DPO)" 는 선호 쌍 (preference pairs) 을 통해 학습함으로써 다중모달 대형 언어 모델 (Multimodal Large Language Models, MLLMs) 의 환각 (hallucination) 을 완화하는 효과적인 해결책으로 입증되었습니다. 그 핵심 과제는 시퀀스 수준의 선호 (sequence-level preference) 를 시각적 충실도 (visual fidelity) 에 대한 세밀한 감독 (fine-grained supervision) 으로 어떻게 전이할 것인가에 있습니다. 환각에 취약한 시각 관련 토큰을 보호하기 위해, 기존 방법들은 모델의 자기 평가된 시각 민감성 신호 (self-assessed visual sensitivity signals) 에 따라 학습 중점을 배분합니다. 그러나 아직 훈련 중인 모델로 추정되는 이러한 민감성은 자기 참조 편향 (self-referential bias) 을 도입합니다: 이미 잘 학습된 시각적 단서를 강화하면서도, 인식하기 어렵지만 중요한 세부 사항을 간과하여 더 깊은 정렬을 제한합니다. 본 작업에서는 MLLMs 에 대한 불확실성 인지 탐색적 직접 선호 최적화 (Uncertainty-Aware Exploratory Direct Preference Optimization, UE-DPO) 방법을 제안합니다. 이 방법은 토큰 수준의 인식적 불확실성 (token-level epistemic uncertainty) 을 기반으로 모델이 자신의 인지적 결함을 발견하고 스스로 수정을 위해 적극적으로 탐색할 수 있게 합니다. 구체적으로, 우리는 먼저 모델이 주어진 이미지에서 토큰 예측을 어지럽게 하는 실패로부터 불확실성을 정량화합니다. 그리고 불확실성 인지 탐색 강도 (uncertainty-aware exploration intensity) 를 기반으로 선호 샘플의 시각적 결핍 토큰에 대한 학습 압력을 더 강화하고, 불필요한 지식에 대한 과잉 처벌을 완화합니다. 또한, 우리는 본 방법의 이론적 근거를 제공하고, 광범위한 실험은 그 효과성과 견고성을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중모달 대형 언어 모델 (MLLM) 을 위한 불확실성 인지 탐색적 직접 선호 최적화 (UE-DPO)

요약

핵심 포인트

댓글