본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:29

다중모달 대형 언어 모델 (MLLM) 을 위한 불확실성 인지 탐색적 직접 선호 최적화 (UE-DPO)

요약

본 논문은 다중모달 대형 언어 모델(MLLMs)의 환각 문제를 해결하기 위해 '불확실성 인지 탐색적 직접 선호 최적화(UE-DPO)'라는 새로운 방법을 제안합니다. 이 방법은 토큰 수준의 인식적 불확실성을 활용하여, 모델이 자신의 지식적 결함을 스스로 발견하고 적극적으로 수정하도록 유도하는 것이 핵심입니다. UE-DPO는 불확실성 인지 탐색 강도를 기반으로 시각적 결핍 토큰에 대한 학습 압력을 강화함으로써, MLLMs의 정렬(alignment)을 더욱 깊고 견고하게 만듭니다.

핵심 포인트

  • MLLMs의 환각 완화를 위해 DPO를 활용하는 것이 효과적이지만, 기존 방법은 자기 참조 편향으로 인해 중요한 세부 사항 학습에 한계가 있었습니다.
  • 제안된 UE-DPO는 토큰 수준의 인식적 불확실성(epistemic uncertainty)을 정량화하여 모델이 자신의 인지적 결함을 스스로 발견하게 합니다.
  • UE-DPO는 불확실성 인지 탐색 강도를 기반으로 시각적 결핍 토큰에 대한 학습 압력을 강화하고, 과잉 처벌을 완화합니다.
  • 본 연구는 UE-DPO의 이론적 근거를 제시하고 광범위한 실험을 통해 그 효과성과 견고성을 입증했습니다.

"Direct Preference Optimization (DPO)" 는 선호 쌍 (preference pairs) 을 통해 학습함으로써 다중모달 대형 언어 모델 (Multimodal Large Language Models, MLLMs) 의 환각 (hallucination) 을 완화하는 효과적인 해결책으로 입증되었습니다. 그 핵심 과제는 시퀀스 수준의 선호 (sequence-level preference) 를 시각적 충실도 (visual fidelity) 에 대한 세밀한 감독 (fine-grained supervision) 으로 어떻게 전이할 것인가에 있습니다. 환각에 취약한 시각 관련 토큰을 보호하기 위해, 기존 방법들은 모델의 자기 평가된 시각 민감성 신호 (self-assessed visual sensitivity signals) 에 따라 학습 중점을 배분합니다. 그러나 아직 훈련 중인 모델로 추정되는 이러한 민감성은 자기 참조 편향 (self-referential bias) 을 도입합니다: 이미 잘 학습된 시각적 단서를 강화하면서도, 인식하기 어렵지만 중요한 세부 사항을 간과하여 더 깊은 정렬을 제한합니다. 본 작업에서는 MLLMs 에 대한 불확실성 인지 탐색적 직접 선호 최적화 (Uncertainty-Aware Exploratory Direct Preference Optimization, UE-DPO) 방법을 제안합니다. 이 방법은 토큰 수준의 인식적 불확실성 (token-level epistemic uncertainty) 을 기반으로 모델이 자신의 인지적 결함을 발견하고 스스로 수정을 위해 적극적으로 탐색할 수 있게 합니다. 구체적으로, 우리는 먼저 모델이 주어진 이미지에서 토큰 예측을 어지럽게 하는 실패로부터 불확실성을 정량화합니다. 그리고 불확실성 인지 탐색 강도 (uncertainty-aware exploration intensity) 를 기반으로 선호 샘플의 시각적 결핍 토큰에 대한 학습 압력을 더 강화하고, 불필요한 지식에 대한 과잉 처벌을 완화합니다. 또한, 우리는 본 방법의 이론적 근거를 제공하고, 광범위한 실험은 그 효과성과 견고성을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0