본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:29

PDCR: 시각-언어 추론을 위한 지각 분해 신뢰도 보상 (Perception-Decomposed Confidence Reward)

요약

본 논문은 시각-언어(V-L) 추론 학습의 어려움을 해결하기 위해 PDCR(Perception-Decomposed Confidence Reward)이라는 새로운 프레임워크를 제안합니다. 기존의 전역적 보상 방식은 V-L 작업의 이질적인 구조 때문에 신호 저하를 유발하여 시각 단계의 학습이 텍스트 단계에 의해 왜곡되는 문제가 있었습니다. PDCR은 비지도 기술 분해와 모델 내부의 '시각 의존도 점수'를 활용하여 지각 단계와 추론 단계를 분리하고, 각 클러스터 내에서 신뢰도 이득을 정규화함으로써 안정적이고 정확하게 스케일링된 학습 신호를 제공합니다.

핵심 포인트

  • V-L 추론은 시각적 지각과 텍스트 추론이 혼합된 이질적인 구조를 가지므로, 단순한 전역 보상 방식 적용에 한계가 있다.
  • 기존의 전역 보상은 '혼합으로 인한 신호 저하'를 유발하여 각 단계별 학습 신호를 왜곡시킨다.
  • PDCR은 비지도 기술 분해와 시각 의존도 점수를 사용하여 지각(Perception)과 추론(Reasoning) 단계를 명확히 분리한다.
  • 분리된 각 클러스터 내에서 신뢰도 이득을 정규화하여, 모든 단계에 안정적이고 올바르게 스케일링된 보상을 제공한다.

검증 가능한 보상을 사용하는 강화학습 (RLVR)은 전통적으로 희소한 결과 기반 신호 (sparse, outcome-based signal)에 의존합니다. 최근 연구에 따르면, 세밀하고 모델 내재적인 신호 (fine-grained, model-intrinsic signal, 즉 정답에서의 신뢰도 성장을 보상하는 방식)를 제공하는 것이 비용이 많이 드는 외부 모델 없이도 단계별 가이드를 제공함으로써 언어 추론 학습을 효과적으로 개선한다는 것을 보여주었습니다. 단일 모달 텍스트에는 효과적이지만, 우리는 이러한 전역적 보상 (global reward)을 시각-언어 (V-L) 추론에 단순히 적용하는 것이 차선책임을 발견했습니다. 왜냐하면 이 작업은 희소한 시각적 지각 (visual perception)과 밀집된 텍스트 추론 (textual reasoning)이 혼합된 이질적인 구조이기 때문입니다. 이러한 전역적 정규화 (global normalization)는 혼합으로 인한 신호 저하 (mixture-induced signal degradation)를 유발하며, 이 과정에서 시각적 단계의 학습 신호가 지배적인 텍스트 단계에 의해 통계적으로 왜곡됩니다. 우리는 보상 구조를 작업의 이질적인 특성에 맞춤으로써 이 문제를 해결하는 프레임워크인 PDCR (Perception-Decomposed Confidence Reward)을 제안합니다. PDCR은 먼저 비지도 기술 분해 (unsupervised skill decomposition)를 수행하며, 시각적 의존도를 정량화하기 위해 모델 내부의 시각 의존도 점수 (Visual Dependence Score)를 도입하고 클러스터링 알고리즘을 적용하여 지각 단계와 추론 단계를 분리합니다. 이를 바탕으로 PDCR은 각 기술 클러스터 내에서 신뢰도 이득 (confidence gains)을 정규화하여 분해된 이점 (decomposed advantage)을 계산합니다. 이러한 클러스터 내 정규화 (intra-cluster normalization)는 지각과 추론 모두에 대해 안정적이고 올바르게 스케일링된 신호를 제공합니다. 우리는 PDCR이 주요 V-L 추론 벤치마크에서 단순한 전역 보상 방식 및 희소 보상 (sparse-reward) 베이스라인보다 뛰어난 성능을 보임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0