검증 가능한 보상이 LLM의 수학적 정확도를 향상시킨다

요약

검증 가능한 보상(Verifiable rewards)을 활용한 강화학습 기법이 LLM의 수학적 추론 능력을 크게 향상시킨다는 연구 결과입니다. 기존 GRPO 방식의 단일 스칼라 보상 한계를 극복하기 위해 토큰 및 하위 문제 단위의 미세한 신호를 할당하는 DelTA, SCRL, RELEX 등의 방법론을 소개합니다.

핵심 포인트

토큰 및 하위 문제 단위의 미세한 보상 할당이 학습 효율을 높임
DelTA는 Qwen3 모델에서 기존 RL 베이스라인을 일관되게 능가함
SCRL은 추론 체인을 검증 가능한 하위 문제로 변환하여 성능 향상
RELEX는 RLVR 궤적의 랭크-1 투영 특성을 발견하여 효율적 학습 가능성 제시

검증 가능한 보상(Verifiable rewards)을 통한 강화학습(RL)은 이제 GRPO 베이스라인을 여유 있게 앞서고 있으며, 이러한 이점은 전체 응답 점수보다 훨씬 더 미세한 입도(granularity)로 신용을 할당(assigning credit)하는 데서 옵니다. 검증을 토큰(token) 및 하위 문제(subproblem) 수준의 신호로 전환함으로써, 최신 방법론들은 그렇지 않았다면 버려졌을 진전 과정으로부터 학습을 추출해냅니다.

이러한 연구들이 나오기 전에는, 추론을 위한 강화학습(RL)이 생성된 답변당 단일 스칼라 보상(single scalar reward)에 의존했습니다. GRPO 및 유사한 RL-HF 파이프라인은 전체 응답을 신용의 단위로 취급했는데, 이는 신용 할당(credit assignment)을 노이즈가 심하게 만들고 어려운 문제들을 "기울기 데드 존(gradient dead zones)"에 갇히게 만들었습니다. 부분적인 해결에 보상을 주거나, 최종 판정에 대한 단일 토큰의 효과를 격리할 수 있는 메커니즘이 존재하지 않았습니다.

DelTA의 판별적 토큰 신용 할당(discriminative token credit assignment)은 RL 업데이트를 토큰-기울기 벡터(token-gradient vectors)에 대한 선형 판별기(linear discriminator)로 재구성하여, 공유된 노이즈는 억제하면서 특정 방향의 신호는 증폭합니다. "DelTA는 Qwen3-8B-Base와 Qwen3-14B-Base 모두에서 모든 동일 규모의 RL 베이스라인을 일관되게 능가하며, 모든 벤치마크에서 최고의 결과와 두 규모 모두에서 가장 높은 평균 점수를 달성했습니다" [1]. 해당 논문은 7개의 수학 제품군(math suites) 전반에 걸쳐 8B 모델에서는 +3.26포인트, 14B 모델에서는 +2.62포인트의 평균 이득을 보고하며, 미미한 RL 개선을 체계적인 향상으로 전환했습니다.

SCRL은 추론 체인(reasoning chain)을 검증 가능한 하위 문제(verifiable subproblems)로 변환하고 각 위치에서의 보상을 정규화하여, 가장 길게 연속적으로 해결된 하위 문제 시퀀스가 이점(advantage)을 결정하도록 합니다. "이득은 특히 Qwen3-4B에서 명확하게 나타나는데, SCRL은 평균 점수 35.0%에 도달하여 두 번째로 우수한 베이스라인인 QuestA(32.0%)보다 3.0포인트, 바닐라(vanilla) GRPO(30.9%)보다 4.1포인트 향상되었습니다" [2]. 동일한 7개 벤치마크 전반에서 이 방법은 4B 모델에 대해 평균 +4.1포인트, 14B 모델에 대해 +1.9포인트를 추가하며, 어려운 AIME/IMO 세트에서는 pass@1을 +3.7포인트, pass@64를 +4.6포인트 끌어올립니다.

RELEX는 RLVR (Reinforcement Learning from Verifiable Rewards) 궤적(trajectories)이 거의 1차원적인 부분 공간(subspace)에 존재함을 보여주며, 이는 대부분의 성능 향상이 훈련 단계에 따라 거의 선형적으로 증가하는 랭크-1 투영(rank-1 projection)에 의해 포착될 수 있음을 의미합니다. “구체적으로, 우리는 다운스트림 성능 향상의 대부분이 파라미터 델타(parameter deltas)의 랭크-1 근사(rank-1 approximation)에 의해 포착되며, 이 투영의 크기가 훈련 단계에 따라 거의 선형적으로 진화한다는 것을 발견했습니다” [[3]]. 통상적인 RLVR 단계의 15~20%만을 외삽(extrapolating)했을 때, RELEX는 Qwen2.5-Math-1.5B에서 GRPO와 대등한 성능을 보였고 (71.6% vs 71.5%), Qwen3-4B-Base에서는 이를 약간 상회하였으나 (85.6% vs 85.5%), 인도메인(in-domain) MATH 벤치마크의 Qwen3-8B-Base에서는 미치지 못했습니다 (87.4% vs 88.5%). 반면, 5개의 아웃오브도메인(out-of-domain) 테스트에서는 RLVR을 능가했습니다.

이 세 편의 논문은 확장성(scalability)과 보편성(universality)에 대한 질문을 남겨두고 있습니다. DelTA의 중심 재가중치(centroid reweighting) 방식은 여전히 고빈도 포맷팅 토큰(formatting tokens)에 의해 지배될 위험이 있으므로, 더 길고 이질적인(heterogeneous) 시퀀스에서는 변별력 있는 우위가 줄어들 수 있습니다. SCRL은 고품질의 참조 체인(reference chains)에 의존하는데, 새로운 도메인을 위해 이를 구축하는 과정에서 비용이 많이 드는 어노테이션(annotation) 문제가 다시 발생할 수 있습니다. RELEX는 수학 중심의 백본(backbones)에서만 입증된 선형적이고 랭크-1인 진화를 가정하고 있으며, 이러한 단순함이 대화형 모델이나 검색 증강(retrieval-augmented) 모델에서도 유지될지는 지켜봐야 합니다.

만약 미세한 검증(fine-grained verification)이 실제로 RLVR 학습의 대부분을 차지한다면, 개발자들은 기존의 단일 구조인 리워드 래퍼(reward wrappers)를 토큰 또는 하위 문제 수준의 크레딧 파이프라인(credit pipelines)으로 교체하여 새로운 기본값으로 삼아야 합니다. 또한, RELEX의 저렴한 외삽 방식은 짧은 RLVR 실행만 수행한 뒤 외삽함으로써, 훨씬 적은 컴퓨팅 예산으로도 유사한 체크포인트를 얻을 수 있음을 시사하며, 이는 배포된 LLM 서비스 전반에 걸쳐 더 신뢰할 수 있는 추론을 빠르게 확산시키는 것을 가능하게 할 잠재력이 있습니다. 차세대 RL 강화 모델은 얼마나 많은 단계를 훈련했느냐가 아니라, 검증 신호(verification signal)를 얼마나 날카롭게 분리해낼 수 있느냐에 따라 평가받게 될 것입니다.

References

참고문헌

AI 자동 생성 콘텐츠

원문 바로가기

검증 가능한 보상이 LLM의 수학적 정확도를 향상시킨다

요약

핵심 포인트

References

참고문헌

댓글