arXiv중요논문2026. 04. 23. 22:54

GRPO 개선: 검증 가능한 과정 감독으로 추론 능력 향상

요약

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해 '검증 가능한 보상 (Verifiable Rewards)' 패러다임을 활용합니다. 기존 방법인 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 비평가 모델을 사용하지만, 중간 단계에 대한 신뢰할 수 없는 기여도 할당 문제로 인해 효과적인 추론 전략 식별과 과도한 사고를 유발하는 한계가 있었습니다. 이를 해결하기 위해 연구진은 '검증 가능한 과정 감독 (Verifiable Process Supervision, VPS)

핵심 포인트

VPS는 모델의 추론 경로 전반에 걸쳐 정답에 대한 신념을 측정하여 과정을 검증합니다.
이 방법은 생성을 이산적인 단계로 나누고 각 경계에서 조건부 확률을 추적하여 해석 가능한 진행 정도를 계산합니다.
VPS를 적용한 GRPO는 기존 방식 대비 수학 및 일반 도메인 벤치마크에서 높은 성능 향상을 보였습니다.

최근 LLM의 추론 능력 강화 연구는 '검증 가능한 보상 (Verifiable Rewards)'을 활용하여 직접적인 결과 검증에 초점을 맞추고 있습니다. 이러한 흐름 속에서 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 비평가 모델이 필요 없어 효율적이지만, 추론의 중간 단계별 기여도 할당 문제(credit assignment)를 해결하지 못해 효과적인 전략을 찾기 어렵거나 불필요한 과잉 사고를 유발하는 한계가 있었습니다.

본 연구에서는 이러한 문제를 해결하기 위해 '검증 가능한 과정 감독 (Verifiable Process Supervision, VPS)'이라는 모델-프리(model-free) 방식을 도입했습니다. VPS는 LLM이 추론 과정을 거치는 동안 정답에 대한 신념을 탐지하는 방식으로 작동합니다. 구체적으로, 생성 과정을 이산적인 단계로 분할하고 각 구간 경계에서 정답의 조건부 확률을 계산하여 해석 가능한 단계별 진행 정도를 측정합니다.

이러한 접근 방식은 GRPO에 목표 지향적이고 샘플 효율적인 정책 업데이트 피드백을 제공하며, 비용이 많이 드는 몬테카를로(Monte Carlo) 롤아웃이나 보조 모델 없이도 중간 감독을 받을 수 있게 합니다. 수학 및 일반 도메인 벤치마크 실험 결과, VPS가 적용된 GRPO는 기존 GRPO 대비 최대 2.6점의 정확도 향상과 추론 길이 감소를 보여 강력한 일반화 성능을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GRPO 개선: 검증 가능한 과정 감독으로 추론 능력 향상

요약

핵심 포인트

댓글