arXiv논문2026. 06. 23. 12:39

LLM 추론을 위한 RL 업데이트의 핵심 요소는 무엇인가?

요약

LLM의 추론 능력 향상을 위한 RLVR(검증 가능한 보상 기반 강화학습)의 업데이트 역학을 이론적으로 분석한 연구입니다. 중요도 샘플링 비율의 분포와 클리핑 동작이 업데이트에 미치는 영향을 규명하고, 이를 개선한 ACPO 알고리즘을 제안합니다.

핵심 포인트

RLVR 업데이트 시 오프-폴리시 정도가 중요도 샘플링 비율에 미치는 영향 분석
그래디언트 기대값을 중심으로 토큰 확률, 어드밴티지, 중요도 샘플링 비율의 역할 규명
경험적 분산에 따라 클리핑 경계를 조정하는 ACPO 알고리즘 제안
수학, 논리 퍼즐 등 다양한 벤치마크에서 기존 베이스라인 대비 우수한 성능 입증

검증 가능한 보상으로부터의 강화학습 (Reinforcement Learning from Verifiable Rewards, RLVR)은 대규모 언어 모델 (Large Language Models, LLM)의 추론 능력을 향상시키기 위한 유망한 프레임워크로 부상했습니다. 그러나 기존 연구의 상당 부분은 휴리스틱한 직관에 의해 유도되어, 알고리즘 선택이 서로 다르거나 심지어 상충되면서도 결과적으로는 경험적인 이득을 보고하는 양상을 보입니다. 이러한 현상을 더 잘 이해하기 위해, 우리는 RLVR 업데이트에 대한 이론적 분석을 수행합니다. 우리의 연구는 롤아웃 (rollout)당 그래디언트 단계 (gradient steps) 수에 의해 결정되는 오프-폴리시 (off-policy) 정도의 차이가 중요도 샘플링 비율 (importance sampling ratios)의 분포와 그 클리핑 (clipping) 동작에 상당한 영향을 미치며, 이를 통해 어떤 토큰이 업데이트를 지배할지를 변화시킨다는 것을 밝혀냅니다. 이러한 통찰을 바탕으로, 우리는 그래디언트 기대값 (gradient expectation)을 업데이트 역학을 지배하는 중심 수량으로 규정하고, 토큰 확률 (token probability), 어드밴티지 (advantage), 그리고 중요도 샘플링 비율 (importance sampling ratio)의 역할을 분석합니다. 이러한 발견에 착안하여, 우리는 중요도 샘플링 비율의 경험적 분산에 따라 토큰 그룹별로 클리핑 경계를 조정하는 적응형 클립 정책 최적화 (Adaptive Clip Policy Optimization, ACPO)를 제안합니다. 수학 문제 풀이, 테이블 QA (tabular QA), 논리 퍼즐을 아우르는 다양한 추론 벤치마크에서 3B 및 7B 모델을 대상으로 수행한 실험 결과, ACPO가 DAPO 및 CISPO와 같은 강력한 베이스라인보다 우수한 성능을 보임을 입증했습니다. 이러한 결과는 원칙적이고 분석 중심적인 접근 방식이 더욱 견고하고 효과적인 RLVR 방법을 산출한다는 것을 보여줍니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/Control-derek/ACPO

AI 자동 생성 콘텐츠

원문 바로가기

LLM 추론을 위한 RL 업데이트의 핵심 요소는 무엇인가?

요약

핵심 포인트

댓글