arXiv논문2026. 06. 03. 11:04

P²-DPO: 보정된 직접 선호 최적화(Calibration Direct Preference Optimization)를 통한 지각 처리 과정의

요약

LVLM의 환각 현상과 시각적 강건성 문제를 해결하기 위해 제안된 P²-DPO 학습 패러다임을 소개합니다. 모델이 스스로 온-폴리시 선호 쌍을 생성하고 보정 손실을 사용하여 시각 정보와 텍스트 생성을 정밀하게 정렬합니다.

핵심 포인트

시각적 병목 현상 및 이미지 저하에 대한 강건성 해결
모델 스스로 선호 쌍을 생성하는 온-폴리시 학습 방식 도입
시각 신호와 텍스트 생성의 정밀한 정렬을 위한 보정 손실 설계
인간 피드백 기반 베이스라인 모델 대비 우수한 성능 입증

최근 대규모 시각-언어 모델 (Large Vision-Language Models (LVLMs)) 분야에서 환각 (Hallucination) 현상이 상당한 연구적 관심을 끌고 있습니다. 직접 선호 최적화 (Direct Preference Optimization (DPO))는 인간이 제공한 교정된 선호도를 통해 직접 학습함으로써 환각 문제를 해결하는 것을 목표로 합니다. 이러한 성공에도 불구하고, 이 패러다임은 주의를 기울인 영역 (attended regions)에서의 지각적 병목 현상 (perceptual bottleneck)을 구체적으로 겨냥하거나, 이미지 저하 (image degradation)에 대한 불충분한 시각적 강건성 (Visual Robustness) 문제를 해결하지 못했습니다. 더욱이, 기존의 선호 쌍 (preference pairs)은 종종 시각 정보와 무관하며 (vision-agnostic), 본질적인 오프-폴리시 (off-policy) 특성으로 인해 모델 학습을 가이드하는 데 효과가 제한적입니다. 이러한 과제를 해결하기 위해, 우리는 지각 처리 직접 선호 최적화 (Perceptual Processing Direct Preference Optimization (P²-DPO))를 제안합니다. 이는 모델이 스스로 선호 쌍을 생성하고 이를 통해 학습하는 새로운 훈련 패러다임으로, 식별된 시각적 병목 현상을 직접적으로 해결하는 동시에 시각 정보 무관성 및 오프-폴리시 데이터 문제를 본질적으로 회피합니다. 본 연구는 다음을 도입합니다: (1) 집중 및 강화 (Focus-and-Enhance) 지각과 시각적 강건성 (Visual Robustness)을 목표로 하는 온-폴리시 (on-policy) 선호 쌍 구축 방법, 그리고 (2) 시각적 신호를 텍스트의 인과적 생성 (causal generation)과 정밀하게 정렬하기 위해 잘 설계된 보정 손실 (Calibration Loss)입니다. 실험 결과에 따르면, P²-DPO는 유사한 양의 훈련 데이터와 비용을 사용하여, 비용이 많이 드는 인간 피드백에 의존하는 강력한 베이스라인 모델들을 벤치마크에서 능가합니다. 또한, 주의 영역 충실도 (Attention Region Fidelity (ARF)) 및 이미지 저하 시나리오에 대한 평가를 통해, 주의를 기울인 영역의 지각적 병목 현상을 해결하고 저하된 입력에 대한 시각적 강건성 (Visual Robustness)을 향상시키는 P²-DPO의 효과를 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

P²-DPO: 보정된 직접 선호 최적화(Calibration Direct Preference Optimization)를 통한 지각 처리 과정의

요약

핵심 포인트

댓글