arXiv논문2026. 06. 15. 12:23

CORA: 멀티모달 RLVR에서의 사고-답변 간극 분석 및 일관성 중심 추론 정렬을 통한 간극 해소

요약

멀티모달 RLVR 과정에서 발생하는 사고-답변 간의 의미론적 불일치 문제를 분석하고, 이를 해결하기 위한 CORA 방법론을 제안합니다. CORA는 일관성 중심의 추론 정렬을 통해 LVLM의 추론 과정과 최종 답변 사이의 간극을 효과적으로 완화합니다.

핵심 포인트

멀티모달 RLVR 학습 및 추론 단계에서의 사고-답변 불일치 현상 규명
일관성 보상 모델을 활용한 CORA(Consistency-Oriented Reasoning Alignment) 제안
HRAS 기법을 통한 작업 최적화와 일관성 최적화의 안정적 조율
실험을 통해 LVLM의 추론 성능 향상 및 시각적 환각 완화 입증

검증 가능한 보상을 활용한 강화학습 (RLVR, Reinforcement learning with verifiable rewards)은 대규모 언어 모델 (LLM)의 추론 능력을 성공적으로 이끌어냈으며, 이는 멀티모달 시나리오로의 확장을 촉진하고 있습니다. 기존 방법들은 주로 추론 흔적 (reasoning traces)의 시각적 커버리지를 개선하고 시각적 환각 (visual hallucinations)을 완화하는 데 집중하고 있으나, 추론 과정과 최종 답변 사이의 의미론적 불일치 (semantic inconsistency)를 과소평가하고 있습니다. 본 논문에서는 대규모 시각-언어 모델 (LVLM)을 위한 RLVR에서의 사고-답변 불일치 (thinking-answer inconsistency)를 심층적으로 탐구하며, 그룹 상대 정책 최적화 (GRPO, Group Relative Policy Optimization) 학습 과정 전반에서 수집된 롤아웃 (rollouts)과 RLVR 이후의 평가 출력물에 대한 철저한 분석을 통해, 이 문제가 학습 중에도 지속되며 추론 (inference) 단계에서도 여전히 존재함을 보여줍니다. 이러한 분석에 착안하여, 우리는 일관성 중심 추론 정렬 (CORA, Consistency-Oriented Reasoning Alignment)을 제안합니다. CORA는 경량화된 플러그 앤 플레이 (plug-and-play) 방식의 일관성 보상 모델을 통해 RLVR에 사고-답변 의미론적 일관성을 도입하며, 나아가 하이브리드 보상 이점 분할 (HRAS, Hybrid Reward Advantage Splitting)을 통합하여 작업 최적화와 일관성 최적화를 안정적으로 조정합니다. 대표적인 멀티모달 추론 벤치마크와 주요 LVLM을 대상으로 한 광범위한 실험 결과, CORA는 작업 성능을 향상시키는 동시에 사고-답변 불일치를 효과적으로 완화하여 더욱 충실한 추론 흔적을 생성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

CORA: 멀티모달 RLVR에서의 사고-답변 간극 분석 및 일관성 중심 추론 정렬을 통한 간극 해소

요약

핵심 포인트

댓글