증거에 주목하라: 멀티모달 RLVR을 위한 증거 기반 공간 어텐션 감독 (Evidence-Anchored Spatial Attention
요약
EASE는 멀티모달 RLVR 모델의 성능을 높이기 위해 시각적 증거 과정 감독을 도입한 새로운 방법론입니다. 높은 보상을 받은 궤적에 대해 응답-이미지 어텐션을 가이드함으로써, 모델이 언어적 사전 지식에 의존하지 않고 실제 시각적 증거에 기반해 답변하도록 유도합니다.
핵심 포인트
- 시각적 증거 기반의 공간 어텐션 감독(EASE) 제안
- 결과 중심 보상의 한계인 시각적 근거 부족 문제 해결
- 추론 시 별도의 주석 없이 이미지와 질문만으로 작동
- Qwen2.5-VL 등 주요 모델에서 벤치마크 성능 향상 입증
검증 가능한 보상을 사용하는 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)은 최종 답변에서 도출된 결과 보상 (outcome rewards)을 최적화함으로써 시각-언어 모델 (VLMs, Vision-Language Models)을 개선합니다. 그러나 이러한 결과 중심의 보상만으로는 모델에게 어떤 이미지 영역이 답변을 정당화하는지 알려주지 못합니다. 시각적 근거 (visual grounding)가 필요한 질문의 경우, 이러한 보상은 관련 시각적 증거에 의해 뒷받침된 응답과 언어적 사전 지식 (language-prior)에 의한 지름길 또는 운 좋은 추측으로 생성된 응답을 구분할 수 없습니다. 우리는 멀티모달 RLVR에 시각적 증거 과정 감독 (visual-evidence process supervision)을 추가하는 EASE (Evidence-Anchored Spatial Attention)를 소개합니다. EASE는 주석이 달린 증거 영역을 부드럽게 처리된 시각적 토큰 타겟 (smoothed visual-token target)으로 변환하고, 이를 사용하여 RL 학습 과정 중 높은 보상을 받은 궤적 (high-reward trajectories)에 대해서만 응답-이미지 어텐션 (response-to-image attention)을 가이드합니다. 주석은 오직 특권 학습 레이블 (privileged training labels)로만 사용되며, 추론 (inference) 시에는 원래의 이미지와 질문만 필요합니다. Qwen2.5-VL-7B, Qwen3-VL-4B, Qwen3-VL-8B 전반에 걸쳐, EASE는 지각 (perception), 환각 (hallucination), 시각 수학 (visual math), 멀티모달 추론 (multimodal reasoning) 벤치마크에서 DAPO 대비 평균 점수를 2.5에서 3.1점까지 높였습니다. 진단 및 절제 연구 (ablations) 결과, EASE는 시각적 어텐션을 주석이 달린 증거 영역과 더 잘 정렬(align)함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기