엔트로피만으로는 부족하다: 시각 기반 토큰 선택을 통한 시각적 추론을 위한 효과적인 강화학습 (Reinforcement Learning) 구현
요약
시각적 추론을 위한 강화학습(RL)에서 기존의 토큰 엔트로피 기반 신용 할당 방식이 가진 한계를 지적합니다. 시각적 민감도를 엔트로피와 결합하여 성능을 높인 새로운 프레임워크 VEPO를 제안하며, 실험을 통해 기존 방식보다 높은 성능을 입증했습니다.
핵심 포인트
- 기존 엔트로피 기반 RL은 시각적 추론에서 한계가 있음
- 시각적 민감도와 토큰 엔트로피를 통합한 VEPO 프레임워크 제안
- VEPO는 시각적으로 접지된 정보량이 많은 토큰에 그래디언트 재지정
- 7B 모델 기준 기존 베이스라인 대비 2.28포인트 성능 향상
검증 가능한 보상 (Verifiable Rewards, RLVR)을 사용하는 텍스트 전용 강화학습 (Reinforcement Learning, RL)에서는 토큰 수준의 엔트로피 (Entropy)가 신용 할당 (Credit Assignment)에 효과적이라고 흔히 인식되지만, 이러한 메커니즘이 시각적 추론 (Visual Reasoning)에서도 여전히 유효한지는 불분명합니다. 본 연구의 통제된 실험에 따르면, 자연적으로 낮은 엔트로피를 가진 시각 민감형 토큰 (Vision-sensitive tokens)의 누락으로 인해 시각적 추론에서 이 메커니즘이 붕괴됨을 보여줍니다. 기존의 멀티모달 (Multimodal) RL 방법론들은 시각적 인지의 중요성을 점점 더 인정하고 있지만, 정밀한 지각적 접지 (Perceptual Grounding)와 의미론적 추론 (Semantic Reasoning)을 교차시켜야 하는 내재적 요구를 충족하는 데 어려움을 겪고 있습니다. 이는 체계적인 시각적 측정 수단이 부족하거나, 토큰 엔트로피가 주로 의미론적 탐색 (Semantic Exploration)을 주도한다는 점을 간과하기 때문입니다. 이를 해결하기 위해, 우리는 원칙적인 곱셈 결합 (Multiplicative Coupling)을 통해 시각적 민감도와 토큰 엔트로피를 명시적으로 통합하는 효과적인 RL 프레임워크인 VEPO (Vision-Entropy token-selection for Policy Optimization)를 소개합니다. VEPO는 시각적으로 접지되어 있으면서 동시에 정보량이 많은 토큰을 향해 그래디언트 신용 (Gradient Credit)을 재지정합니다. 광범위한 실험을 통해 VEPO의 뛰어난 성능을 입증하였으며, 7B 규모에서는 엔트로피 전용 베이스라인 (Baseline)보다 2.28포인트, 3B 규모에서는 3.15포인트 더 높은 성능을 기록했습니다. 절제 연구 (Ablation studies)를 통해 우리 방법론의 타당성을 추가로 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기