GRPO는 왜 장시간 학습에서 붕괴하는가 —— Qwen이 제시한 '시퀀스 단위'의 해답, GSPO

추론 모델의 강화학습 (RL)은 지난 1년간 '벤치마크 점수를 얼마나 올렸는가'를 겨루는 단계로 보인다. 하지만 Qwen 팀이 2025년 7월 말에 공개한 **GSPO (Group Sequence Policy Optimization)**가 다루고 있는 것은 점수의 상층부가 아니라, 그 아래에 있는 지반 —— '애초에 장시간 RL을 돌리면 모델이 망가진다'라는, 훨씬 수수하지만 훨씬 치명적인 문제다.

소재로 주어진 Qwen 공식 블로그의 기술은 짧다. 하지만 1차 정보 (arXiv 논문 2507.18071, Qwen 팀)를 확인하면 주장은 명확하다. 현재 주류인 GRPO는 대규모 모델을 길게 훈련하면 '파멸적이고 비가역적인 모델 붕괴 (catastrophic and irreversible model collapse)'를 일으킬 수 있다. 그 원인은 GRPO의 설계 자체에 있다는 것이다. 이하에서는 무엇이 일어나고 있는지, GSPO가 무엇을 바꾸었는지를 가능한 한 원리부터 순서대로 설명한다.

무엇이 일어났는가

Qwen 팀이 GSPO라는 새로운 RL 사후 훈련 (post-training) 알고리즘을 논문, 블로그, 공식 계정을 통해 공개했다. 그 위치 설정은 명쾌하다.

GRPO (DeepSeek가 퍼뜨린, 가치 함수 (critic)를 사용하지 않고 그룹 내의 상대적 보상으로 우월성을 측정하는 수법)에는 대규모·장시간 학습에서의 심각한 불안정성이 있다.
GSPO는 그 불안정성의 근본 원인을 '중요도 샘플링 (importance sampling)의 오용'으로 특정하고, 설계 레벨에서 다시 만들었다.
결과적으로 특히 MoE (Mixture-of-Experts) 모델의 RL 학습을 안정화시켰으며, 최신 Qwen3 모델의 개선에 기여했다고 Qwen은 밝히고 있다.

이 부분은 1차 정보 (Qwen의 논문, 블로그, 공식 X)에서 일관되게 나타나므로 사실로 다루어도 좋다. 논문 저자는 Qwen Team (Chujie Zheng, Shixuan Liu 등)이며, 공개일은 2025년 7월 29일이다.

기술적으로 무엇이 새로운가 —— '토큰 단위'에서 '시퀀스 단위'로

신규성을 한마디로 말하자면, 중요도 비 (importance ratio)를 계산하는 단위를 토큰에서 시퀀스 (응답 전체)로 끌어올린 것에 있다. 이를 이해하기 위해서는 먼저 중요도 샘플링이 무엇을 위해 존재하는지 파악할 필요가 있다.

전제: 왜 중요도 비가 필요한가

RL 사후 훈련에서는 효율성을 위해 '조금 전의 정책 (π_old)으로 생성한 응답'을 몇 스텝 동안 재사용하여 현재의 정책 (π_θ)을 업데이트한다 (off-policy적인 재사용). 생성했을 때의 분포와 업데이트하고자 하는 분포가 어긋나 있기 때문에, 그 차이를 보정하는 계수가 필요하다. 그것이 바로 중요도 비다. 교과서적으로는,

$$rac{ ext{π}θ(a|s)}{ ext{π}{old}(a|s)}$$

이 비로 가중치를 부여하면, 'π_old로 수집한 샘플로부터 π_θ 상의 기댓값을 불편 추정 (unbiased estimation)할 수 있다'는 것이 중요도 샘플링의 논리이다.

GRPO의 문제: 단일 샘플에 토큰 단위로 적용해 버림

GRPO는 이 비를 토큰 하나하나에 대해 계산한다. $t$번째 토큰에 대해

$$rac{ ext{π}θ(a_t|s, a{<t})}{ ext{π}{old}(a_t|s, a{<t})}$$

를 만들어 토큰별 우월성에 곱하여 그래디언트 (gradient)를 산출한다. Qwen 주장의 핵심은 여기다. 중요도 샘플링은 '다수의 샘플로 평균을 내야 비로소 분포 보정으로서 기능'하는데, GRPO는 각 위치에서 단 1개 샘플의 비를 적용하고 있을 뿐이라서 보정으로서의 역할을 수행하지 못하고 있다. 보정이 되지 않는 대신, 그것은 **고분산 노이즈 (high-variance noise)**로서 그래디언트에 실리게 된다.

그리고 이 노이즈는,

응답이 길어질수록 (토큰 수가 늘어날수록) 누적되며,
클리핑 (clipping) 메커니즘에 의해 더욱 증폭된다,

라고 Qwen은 설명한다. 긴 추론 체인 (reasoning chain)을 대량으로 생성하여 장시간 돌리는 —— 바로 지금의 추론 모델 RL이 하고 있는 일 —— 일수록 이 노이즈가 영향을 미치게 되어, 최종적으로 모델 붕괴에 이른다. '화력 (계산량)을 더하면 똑똑해진다'가 아니라, 훈련 다이내믹스 (training dynamics) 자체가 천장에 막혀 있다는 이야기다.

GSPO의 수정: 시퀀스 우도를 길이로 정규화한 비로 측정

GSPO는 비의 단위를 응답 시퀀스 $ ext{π}(a|s)$로 바꾸고, 이를 길이 $T$로 정규화한다. 응답마다 길이가 제각각이면 비의 자릿수가 요동치기 때문이며, 이를 통해 장단 응답을 동일한 선상에 놓을 수 있다. 그리고 클리핑도, 보상 부여도, 최적화도 모두 이 시퀀스 단위의 양에 대해 수행한다 (token 단위가 아니라).

직관적으로 말하자면, GRPO는 "문장의 우수성을 단어별로 채점하여 합산하는" 것에 가깝고, GSPO는 "문장 전체를 하나의 단위로 채점하는" 것에 가깝다. 보상이 애초에 응답 전체에 대해 주어지기(시퀀스 단위) 때문에, 최적화(Optimization)의 단위도 시퀀스에 맞추는 것이 논리적으로 타당하다. 이것이 Qwen이 말하는 "이론적으로 건전함(theoretically sound & matching reward)"의 의미다.

왜 효과적인가 —— 클리핑(Clipping)의 역설

이 부분이 GSPO의 흥미로운 지점인데, 언뜻 보기에는 불리해 보이는 사실로부터 효과가 역설적으로 증명된다.

GSPO는 응답 전체를 클리핑하기 때문에, 토큰(Token) 단위로 보면 GRPO보다 훨씬 더 많은 토큰이 클리핑되어 그래디언트(Gradient)에서 제외된다. Qwen의 실험에 따르면, GSPO의 클리핑 범위는 3e-4 / 4e-4 정도로 설정되었으며, 클리핑되는 토큰 비율은 GRPO 대비 약 2자리(100배) 더 많다고 한다.

일반적으로 생각하면 그래디언트에 사용할 정보를 대량으로 버리는 것이므로 불리해야 한다. 하지만 그럼에도 불구하고 GSPO가 GRPO보다 학습 효율과 성능이 더 높다. Qwen은 이를 "GRPO의 토큰 단위 그래디언트는 애초에 노이즈가 많아 유효하지 않았다"는 증거로 해석한다. 즉, GRPO는 많은 토큰을 "사용하고" 있는 것처럼 보이지만, 그 내용은 보정되지 않은 잡음이며, 차라리 버리는 편이 오히려 정직하게 성능이 향상된다는 뜻이다.

실험은 Qwen3-30B-A3B-Base를 콜드 스타트(Cold Start)로 미세 조정(Fine-tuning)한 모델을 사용하였으며, AIME'24, LiveCodeBench, CodeForces의 성능 곡선과 훈련 보상 곡선을 GRPO 베이스라인과 비교했다. 동일한 훈련 비용에서 GSPO가 더 효율적으로 성장한다는 보고다. 단, 이 수치들은 Qwen 자체의 비교 결과이며, 제3자의 독립적인 재현이 모두 이루어진 것은 아니라는 점은 감안하여 읽어야 한다.

MoE에서 가장 효과적 —— "Routing Replay"라는 목발을 버리다

GSPO의 주장 중 실무적으로 가장 와닿는 부분은 MoE(Mixture of Experts) 모델에서의 안정화라고 생각한다.

MoE는 입력 토큰마다 일부의 전문가(Expert, 부분 네트워크)만을 활성화한다. 여기서 까다로운 점은 **Expert Activation Volatility(전문가 활성화의 변동성)**로, 한 번의 그래디언트 업데이트 이후 동일한 입력에 대해 활성화되는 전문가 집합이 크게 변해버린다는 것이다. Qwen의 보고에 따르면, 48개 층을 가진 Qwen3-30B-A3B-Base에서 1회 업데이트마다 약 10%의 전문가가 교체된다.

GRPO는 토큰 단위의 비율에 의존하기 때문에, 활성화된 전문가가 흔들리면 업데이트마다 비율이 격하게 요동쳐 신뢰할 수 없게 되고 수렴하지 못한다. 그래서 기존에는 Routing Replay라는 회피책이 필요했다. 이는 $\pi_{old}$가 활성화했던 전문가를 캐싱해두고, $\pi_{\theta}$ 측에서도 동일한 라우팅을 "재생(Replay)"하여 비율을 계산하게 하는 방식이다. 이는 모델이 본래의 용량을 온전히 사용하지 못하게 만들고 인프라도 복잡하게 만드는 전형적인 목발(Hack)이다.

GSPO는 비율을 시퀀스 단위로 측정하기 때문에, 개별 토큰에서 어떤 전문가가 활성화되었는지에 대한 변동에 둔감하다. 결과적으로 Routing Replay가 불필요해진다. Qwen은 이를 "RL 인프라를 간소화할 수 있는" 효용으로서 강조하고 있다. MoE가 대규모 모델의 주류 아키텍처가 되어가는 현시점에서, 사후 훈련(Post-training)을 할 때마다 특수한 라우팅 작업을 요구하지 않게 된다는 것은 미미해 보일 수 있으나 매우 큰 이점이다.

어떻게 활용되는가

기반 모델 제공자의 사후 훈련 파이프라인: GSPO는 추론 능력(수학, 코드, 긴 추론 체인)을 향상시키는 RL 사후 훈련의 더 안정적인 기본 후보가 될 것이다. 특히 MoE를 채택하는 진영에게는 Routing Replay를 제거할 수 있다는 사실 자체가 운영 비용 절감으로 이어진다.
OSS(Open Source Software) 생태계로의 파급: 논문과 블로그를 통해 그 비결(왜 GRPO가 망가지는지, 어떻게 고쳤는지)을 공개하고 있다. 이는 단순히 모델 하나를 내놓는 것보다 전략적이며, 후속 연구자들이 재현하거나 추종할 때 "알고리즘 노선"을 자사 쪽으로 끌어들이는 움직임이다. 실제로 논문 공개 이후 GRPO 안정화를 목표로 하는 파생 연구(GTPO, Group Expectation Policy Optimization 등)가 이어지고 있으며, 시퀀스 단위/그래디언트 제어라는 논점이 사후 훈련 연구의 주요 테마 중 하나가 되고 있다(이들은 이차적인 관련 연구이며, GSPO의 우열을 뒷받침하는 것은 아니다).
기업의 자체 모델 미세 조정: "최종 점수"뿐만 아니라 "장시간 실행해도 능력이 퇴보하지 않는가/붕괴하지 않는가"를 평가 축에 포함하게 만드는 동기가 된다. 안정성은 계산 예산을 성능으로 전환할 수 있는지 여부를 직접적으로 좌우한다.

개인적인 견해

이 뉴스의 신호는 소재의 메모가 말하는 바와 같다고 생각한다 —— 경쟁의 중심이 "문제를 풀 수 있는 모델을 만드는 것"에서 "모델을 안정적으로 '더 잘 풀 수 있는' 지점까지 훈련시켜 내는 것"으로 옮겨가고 있다.

다만, 기술을 한 걸음 더 깊이 파고들면, GSPO의 진정한 주장은 "안정성을 위한 새로운 해킹"이 아니라, "GRPO의 토큰 단위 중요도 비(Importance Ratio)는 처음부터 논리적으로 맞지 않았다"는 지적이다. 중요도 샘플링 (Importance Sampling)은 다수의 샘플 평균을 통해서야 비로소 보정이 이루어진다 —— 이 기초를, 보상의 단위(시퀀스)와 최적화의 단위(시퀀스)를 일치시킴으로써 정직하게 충족시켰다. 하고 있는 일은 화려한 발명이 아니라, 오히려 "어긋나 있던 단위를 다시 맞춘 것"처럼 보인다. 그렇기에 설득력이 있다. "다수의 토큰을 버려도 성능이 올라간다"는 역설은, 버려진 내용물이 정보가 아니라 노이즈였다는 사실의 반증이며, 이 부분이 가장 깔끔한 논점이라고 생각한다.

평가하자면 —— 계산(기름)에 대해 안정적인 알고리즘(기름길)이 효과적이라는 비유는 핵심을 꿰뚫고 있다. 기름길이 막혀 있다면, 기름을 더 부을수록 창고 비용만 높아질 뿐이다. 반면 할인해서 보아야 할 점도 명확하다: 성능 비교는 Qwen 스스로에 의한 것이며, 독립적인 재현은 앞으로의 과제다. "불가역적인 붕괴"가 구체적으로 어떤 능력에서 어떻게 나타나는지, GSPO의 우위가 소규모에서도 나타나는지 아니면 대규모 장기 학습에서만 나타나는지, 동일한 계산량으로 안정적인지 아니면 추가 비용을 지불해야 안정적인지 —— 이 마지막 지점이 "연구상의 보기 좋은 결과"인지 "현장에서 정말 쓸 수 있는 공학"인지를 가른다. 논문의 실험은 후자에 가까운 주장이다만, 외부 데이터로 확인해보고 싶은 단계다.

비주류(Cold niche)이지만 가치가 있다는 첫 견해를 지지한다. 다음 모델 능력의 증분이 이런 "섹시하지 않은 최적화 알고리즘 (Optimization Algorithm)"에 숨겨져 있다는 통찰은 맞을 가능성이 높다.

참고

1차 정보를 우선하여 나열한다.

GSPO 논문 (1차 · Qwen Team): Group Sequence Policy Optimization, arXiv:2507.18071 / HTML 버전
Qwen 공식 블로그 (1차): GSPO: Towards Scalable Reinforcement Learning for Language Models
Qwen 공식 X (1차 · 요점): @Alibaba_Qwen 의 공지
Qwen3 기술 보고서 (배경 · 1차): Qwen3 Technical Report, arXiv:2505.09388

2차 정보 (해설 · 요약. 사실 확인 보조용):

Paper Review: Group Sequence Policy Optimization — Andrey Lukyanenko
Alibaba Introduces GSPO — MarkTechPost

이 기사는 「AI Watch」에도 게재되었습니다. 최첨단 AI를 기술적 내용까지 심도 있게 분석하고 있습니다.