PDCR: 시각-언어 추론을 위한 지각 분해 신뢰도 보상 (Perception-Decomposed Confidence Reward)

검증 가능한 보상을 사용하는 강화학습 (RLVR)은 전통적으로 희소한 결과 기반 신호 (sparse, outcome-based signal)에 의존합니다. 최근 연구에 따르면, 세밀하고 모델 내재적인 신호 (fine-grained, model-intrinsic signal, 즉 정답에서의 신뢰도 성장을 보상하는 방식)를 제공하는 것이 비용이 많이 드는 외부 모델 없이도 단계별 가이드를 제공함으로써 언어 추론 학습을 효과적으로 개선한다는 것을 보여주었습니다. 단일 모달 텍스트에는 효과적이지만, 우리는 이러한 전역적 보상 (global reward)을 시각-언어 (V-L) 추론에 단순히 적용하는 것이 차선책임을 발견했습니다. 왜냐하면 이 작업은 희소한 시각적 지각 (visual perception)과 밀집된 텍스트 추론 (textual reasoning)이 혼합된 이질적인 구조이기 때문입니다. 이러한 전역적 정규화 (global normalization)는 혼합으로 인한 신호 저하 (mixture-induced signal degradation)를 유발하며, 이 과정에서 시각적 단계의 학습 신호가 지배적인 텍스트 단계에 의해 통계적으로 왜곡됩니다. 우리는 보상 구조를 작업의 이질적인 특성에 맞춤으로써 이 문제를 해결하는 프레임워크인 PDCR (Perception-Decomposed Confidence Reward)을 제안합니다. PDCR은 먼저 비지도 기술 분해 (unsupervised skill decomposition)를 수행하며, 시각적 의존도를 정량화하기 위해 모델 내부의 시각 의존도 점수 (Visual Dependence Score)를 도입하고 클러스터링 알고리즘을 적용하여 지각 단계와 추론 단계를 분리합니다. 이를 바탕으로 PDCR은 각 기술 클러스터 내에서 신뢰도 이득 (confidence gains)을 정규화하여 분해된 이점 (decomposed advantage)을 계산합니다. 이러한 클러스터 내 정규화 (intra-cluster normalization)는 지각과 추론 모두에 대해 안정적이고 올바르게 스케일링된 신호를 제공합니다. 우리는 PDCR이 주요 V-L 추론 벤치마크에서 단순한 전역 보상 방식 및 희소 보상 (sparse-reward) 베이스라인보다 뛰어난 성능을 보임을 입증합니다.

Insights

PDCR: 시각-언어 추론을 위한 지각 분해 신뢰도 보상 (Perception-Decomposed Confidence Reward)

요약

핵심 포인트

댓글

Elon Musk의 다른 회사인 Tesla의 수요일 밤 실적 발표를 앞두고 SpaceX 주가 하락

심리치료실의 «character ai»: “ChatGPT가 말하기를...” — 그리고 이것은 문제입니다

AI 코딩 에이전트를 충분히 테스트하지 않고 있습니다

🚗 테슬라 브리핑 · 7월 24일(금)

Elon Musk의 다른 회사인 Tesla의 수요일 밤 실적 발표를 앞두고 SpaceX 주가 하락

심리치료실의 «character ai»: “ChatGPT가 말하기를...” — 그리고 이것은 문제입니다

AI 코딩 에이전트를 충분히 테스트하지 않고 있습니다

🚗 테슬라 브리핑 · 7월 24일(금)