arXiv논문2026. 05. 21. 11:52

DelTA: 검증 가능한 보상을 이용한 강화학습을 위한 판별적 토큰 크레딧 할당

요약

본 연구는 RLVR(검증 가능한 보상을 이용한 강화학습) 과정에서 응답 수준의 보상이 토큰 수준의 확률 변화로 전환되는 메커니즘을 판별적 관점에서 분석합니다. 기존 방식이 고빈도 패턴에 의해 학습 방향이 희석되는 문제를 해결하기 위해, 토큰 계수를 추정하여 판별력을 높이는 DelTA 방법론을 제안합니다. 실험 결과, DelTA는 Qwen3 모델 시리즈를 포함한 다양한 벤치마크에서 기존 베이스라인 모델들을 유의미하게 능가하는 성능을 보였습니다.

핵심 포인트

RLVR 업데이트가 토큰 경사 벡터에 대한 선형 판별기로 작용함을 이론적으로 규명
기존 시퀀스 수준 RLVR이 고빈도 포맷팅 토큰에 의해 학습 방향이 희석되는 한계 지적
토큰 계수를 재조정하여 유효한 토큰 경사 방향을 증폭시키는 DelTA 방법론 제안
Qwen3-8B 및 14B 모델을 포함한 수학적 벤치마크에서 강력한 성능 향상 입증
코드 생성 및 도메인 외 평가를 통한 DelTA의 뛰어난 일반화 능력 확인

검증 가능한 보상을 이용한 강화학습 (Reinforcement learning from verifiable rewards, RLVR)은 대규모 언어 모델 (Large Language Models, LLM)의 추론 능력을 향상시키기 위한 핵심 기술로 부상했습니다. 이러한 효과성에도 불구하고, 응답 수준의 보상이 어떻게 토큰 수준의 확률 변화로 전환되는지는 여전히 명확히 이해되지 않고 있습니다. 본 연구에서는 RLVR 업데이트에 대한 판별적 관점 (discriminator view)을 도입하여, 정책 경사 (policy-gradient) 업데이트 방향이 토큰 경사 (token-gradient) 벡터들에 대한 선형 판별기 (linear discriminator)로서 암묵적으로 작용하며, 이를 통해 학습 과정에서 어떤 토큰 확률이 증가하거나 감소할지를 결정함을 보여줍니다. 표준적인 시퀀스 수준 (sequence-level) RLVR 하에서, 이 판별기는 어드밴티지 가중 평균 (advantage-weighted averaging)으로 형성된 토큰 경사 벡터의 양의 측면 및 음의 측면 중심점 (centroids)으로부터 구축됩니다. 그러나 이러한 중심점 구축 방식은 포맷팅 토큰과 같이 공유되는 고빈도 패턴에 의해 지배될 수 있으며, 이는 고보상 응답과 저보상 응답을 더 잘 구분할 수 있는 희소하지만 판별력 있는 방향을 희석시킵니다. 이러한 한계를 해결하기 위해, 우리는 특정 측면의 토큰 경사 방향을 증폭시키고 공유되거나 판별력이 약한 방향의 가중치를 낮추기 위해 토큰 계수 (token coefficients)를 추정하는 판별적 토큰 크레딧 할당 (discriminative token credit assignment) 방법인 $\textbf{DelTA}$를 제안합니다. 이 계수들은 자기 정규화된 (self-normalized) RLVR 대리 목적 함수 (surrogate)의 가중치를 재조정하여, 유효한 측면별 중심점을 더욱 대조적 (contrastive)으로 만들고 이를 통해 RLVR 업데이트 방향을 재형성합니다. 7개의 수학적 벤치마크에서 DelTA는 Qwen3-8B-Base와 Qwen3-14B-Base에서 각각 평균 3.26점과 2.62점 차이로 가장 강력한 동일 규모의 베이스라인 모델들을 능가했습니다. 코드 생성, 다른 백본 (backbone) 모델, 그리고 도메인 외 (out-of-domain) 평가에 대한 추가 결과는 DelTA의 일반화 능력을 더욱 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DelTA: 검증 가능한 보상을 이용한 강화학습을 위한 판별적 토큰 크레딧 할당

요약

핵심 포인트

댓글