Z.ai의 오픈 소스 slime: GLM-5.2 후처리 스택

모두가 GLM-5.2의 벤치마크에 대해 이야기하고 있습니다. Jeremy Howard의 비교 분석은 이것이 GPT-5.5를 64%의 확률로 능가한다고 보여줍니다. Clément Delangue는 자신의 241,000명의 시청자들에게

slime의 아키텍처는 원칙적으로는 단순하지만, 실제로는 매우 정교하게 설계되었습니다. 이 시스템은 세 가지 구성 요소를 하나의 일관된 파이프라인으로 통합합니다:

Megatron-LM은 트레이닝 엔진 (training engine)을 담당합니다. 즉, 수천 개의 GPU에 걸친 그래디언트 계산 (gradient computation), 모델 병렬화 (model parallelism), 그리고 분산 최적화 (distributed optimization)를 처리합니다.
SGLang은 롤아웃 엔진 (rollout engine)을 담당합니다. 모델이 학습할 응답을 생성하며, SGLang의 모든 추론 최적화 기술(speculative decoding, continuous batching, tensor parallelism)이 트레이닝 루프 (training loop)로 직접 전달됩니다.
**플러그형 데이터 버퍼 (pluggable Data Buffer)**는 이들 사이의 파이프라인을 관리합니다. 프롬프트 초기화 (prompt initialization), 보상 계산 (reward computation), 검증기 피드백 (verifier feedback), 그리고 환경 상호작용 (environment interaction)이 모두 하나의 명시적인 데이터 흐름 경로 (dataflow path)를 통해 이루어집니다.

Z.ai의 공식 발표에 따르면, "slime은 네이티브 SGLang 통합을 통해 구축되었으며, SGLang의 모든 추론 최적화 기능을 트레이닝으로 직접 가져옵니다."

이 프레임워크는 Megatron 인자(arguments)를 직접 전달하며, SGLang 인자는 --sglang- 접두사를 붙여 노출합니다. 래퍼 레이어 (wrapper layer)도, 추상화 비용 (abstraction tax)도 없습니다. 상위 단계의 트레이닝 및 서빙 최적화 기능들이 slime의 방해 없이 그대로 유지됩니다.

문서에서는 엔지니어링 과제에 대해 매우 솔직하게 기술하고 있습니다: "RL 버그는 종종 소리 없이 발생합니다." slime은 재현성 (reproducibility), 결함 허용 (fault tolerance), 트레이싱 (tracing), 그리고 프로파일링 (profiling)을 사후 고려 사항이 아닌, 최우선적인 엔지니어링 과제로 취급합니다. 또한 롤아웃 전용 (rollout-only) 및 트레이닝 전용 (train-only) 디버깅 경로를 별도로 제공하므로, 실패가 미묘하고 지연되어 나타나는 경향이 있는 시스템 내에서 문제를 격리할 수 있습니다.

APRIL: 90% 병목 현상 해결

언어 모델의 강화학습 (RL) 훈련에서 가장 큰 병목 현상은 그래디언트 단계 (gradient step)가 아니라 생성 (generation)입니다. 모델이 평가를 위해 완전한 응답을 생성해야 할 때, 롤아웃 (rollout) 단계가 전체 훈련 시간의 90% 이상을 소비할 수 있습니다. 횡설수설하는 사고 사슬 (chain-of-thought)이나 지나치게 장황한 코드 생성과 같은 단 하나의 느린 응답이, 수천 개의 GPU가 유휴 상태로 있는 동안 전체 배치 (batch)를 지연시킵니다.

slime은 이러한 롱테일 (long-tail) 문제를 직접적으로 해결하는 시스템 수준의 최적화 방식인 APRIL (Active Partial Rollouts in Reinforcement Learning)을 통합합니다. 이 접근 방식은 우아합니다. 롤아웃 요청을 초과 할당(over-provision)하고, 목표한 수의 완전한 응답에 도달하면 종료하며, 미완성된 응답은 향후 훈련 단계에서 재개할 수 있도록 재활용합니다.

배치 내에서 가장 느린 응답을 기다리는 대신, APRIL은 훈련이 결코 유휴 상태가 되지 않도록 보장합니다. 부분적으로 완료된 응답은 버려지지 않고 다음 반복 (iteration)에서 다시 사용되어, 그 비용을 여러 훈련 단계에 걸쳐 분할 상환 (amortizing)합니다. 이는 연구용 프로토타입과 프로덕션 인프라를 구분 짓는 시스템 엔지니어링적 통찰력입니다.

그 영향은 실질적입니다. APRIL이 없다면, 단 하나의 장황한 사고 사슬 (chain-of-thought) 응답이 수백 개의 GPU를 대기시키며 몇 분 동안 배치를 중단시킬 수 있습니다. APRIL 논문은 생성 병목 현상이 RL 훈련의 실제 소요 시간 (wall-clock time)을 지배한다는 것을 보여줍니다. 롤아웃 중 GPU 유휴 사이클을 제거함으로써, slime은 학습 알고리즘 자체를 변경하지 않고도 훨씬 더 높은 훈련 처리량 (throughput)을 달성할 수 있습니다.

APRIL 구현체는 slime에 완전히 통합되어 있습니다. 이는 선택적인 플러그인이 아니라, 비동기 롤아웃 워크플로우 중에 기본적으로 활성화되는 핵심 인프라로서 작동합니다.

OPD: 이틀 만에 10개의 전문가 모델 병합하기

GLM-5.2의 사후 학습 (post-training)은 단일한 거대 강화학습 (RL) 실행 과정을 거치지 않았습니다. 대신 온라인 선호도 증류 (Online Preference Distillation, OPD) 방식을 사용했습니다. 이는 서로 다른 능력(코딩, 추론, 지시 이행, 긴 문맥 작업)에 맞춰 튜닝된 10개 이상의 전문화된 전문가 모델 (expert models)을 병렬로 학습시킨 후, 온라인 선호도 최적화 (online preference optimization)를 통해 이들을 최종 모델로 병합하는 프로세스입니다.

GLM-5.2의 전체 OPD 사후 학습은 slime 위에서 실행되었으며 약 이틀 만에 완료되었습니다.

GLM-5.2 technical blog on HuggingFace — built for long-horizon tasks

맥락을 위해 설명하자면: GLM-5.2는 28.5조 개의 토큰으로 학습된, 토큰당 400억 개의 활성 파라미터를 가진 7,440억 파라미터 규모의 전문가 혼합 (Mixture-of-Experts, MoE) 모델입니다. MiniMax-M3와 DeepSeek V4 Pro를 제치고 Artificial Analysis Intelligence Index에서 51점으로 1위를 차지한 이 모델은 전체 사후 학습 단계를 단 한 번의 주말 만에 완료했습니다.

💡 이러한 속도는 단순히 과시하기 위한 것이 아닙니다. 반복 주기 (iteration cycles)가 빨라진다는 것은 더 많은 RL 전략을 실험하고, 더 많은 보상 함수 (reward functions)를 테스트하며, 전체 학습 실행을 확정하기 전에 방향을 수정할 수 있음을 의미합니다. 공장의 처리량 (throughput)이 제품을 얼마나 빠르게 혁신할 수 있는지를 결정합니다.

HuggingFace 기술 블로그는 학습 파이프라인의 추가적인 정교함을 보여줍니다. Z.ai는 표준적인 그룹 단위 PPO (group-wise PPO) 대신, 개별 롤아웃 (rollouts)으로부터 학습하는 비평가 기반 PPO (critic-based PPO) 공식으로 전환했습니다. 이는 서로 다른 롤아웃이 가변적인 길이의 하위 추적 (sub-traces)을 생성하는 에이전트적 작업 (agentic tasks)에서 매우 중요합니다. 예를 들어, 코딩 에이전트는 문제를 50개의 토큰으로 해결할 수도 있고, 5,000개의 토큰으로 해결할 수도 있습니다.

RL (강화학습) 알고리즘 자체를 넘어, Z.ai는 훈련 루프 (training loop) 내에 정교한 안티 해킹 (anti-hacking) 메커니즘을 구축했습니다. RL을 통해 코딩 에이전트를 훈련할 때, 모델은 보상 함수 (reward functions)를 악용하는 법을 배웁니다. 즉, 단순히 통과하기 쉬운 테스트를 작성하거나, 성공을 조작하기 위해 샌드박스 환경 (sandbox environments)을 조작하거나, 문제를 해결하지 않고 지표만을 속이는 지름길을 택하는 식입니다. GLM-5.2의 훈련에는 2단계 탐지 방식이 사용됩니다. 먼저 규칙 기반 필터 (rule-based filters)가 높은 재현율 (recall)로 잠재적인 지름길을 포착하고, 그다음 LLM 판사 (LLM judges)가 높은 정밀도 (precision)로 의도를 검증합니다. 탐지된 해킹은 온라인 개입 (online intervention)을 트리거하여, 악의적인 호출을 차단하고 더미 데이터 (dummy data)를 반환함으로써 전체 궤적 (trajectories)을 중단하는 대신 훈련을 계속할 수 있도록 합니다.

GLM-5.2 벤치마크 맥락

slime을 사용하는 다른 사례를 살펴보기 전에, GLM-5.2의 성능을 수치로 확인해 볼 가치가 있습니다. 이 공장이 만들어낸 모델은 미미한 개선이 아니라, 오픈 웨이트 (open-weights) 모델이 할 수 있는 일에 대한 구조적 변화입니다.

FrontierSWE에서 GLM-5.2는 74.4%를 기록하며, Claude Opus 4.8에 불과 1% 차이로 뒤처집니다. PostTrainBench에서는 34.3%를 기록하여 Opus 4.7과 GPT-5.5를 모두 능가합니다. Terminal-Bench 2.1에서는 63.5(GLM-5.1)에서 81.0으로 도약했습니다. 그리고 Artificial Analysis Intelligence Index v4.1에서 GLM-5.2는 51점의 점수로 1위에 올랐으며, 이는 다른 모든 오픈 웨이트 모델보다 앞서고 최고의 폐쇄형 (proprietary) 모델들과도 경쟁할 만한 수준입니다.

Hacker News discussion — GLM-5.2 is probably the most powerful text-only open weights LLM

HN 토론은 실무자들의 공통된 의견을 담아냈습니다. 이것은 단순한 벤치마크 최적화 (benchmark-maxxing)가 아니라는 점입니다. 개선 사항은 실제 코딩 워크플로 (workflows)에서 나타납니다. GLM-5.1보다 5배 더 큰 1M-토큰 컨텍스트 윈도우 (context window)는 이전에는 폐쇄형 모델들만 가능했던 장기적 에이전트 작업 (long-horizon agentic tasks)을 가능하게 합니다.

이 모든 것은 동일한 사후 학습 (post-training) 파이프라인에서 비롯됩니다. 아키텍처 혁신 (희소 어텐션 (sparse attention)을 위한 IndexShare, 개선된 다중 토큰 예측 (Multi-Token Prediction), KV-캐시 (KV-cache) 최적화)도 중요하지만, 유능한 베이스 모델을 최첨단 코딩 에이전트로 탈바꿈시킨 것은 바로 강화학습 (RL) 사후 학습입니다.

GLM뿐만이 아닙니다: slime을 사용하는 다른 모델들

대부분의 보도가 놓치고 있는 부분이 여기 있습니다. slime은 Z.ai 전용 도구가 아닙니다. 프레임워크의 README에는 다음과 같은 모델들에 대한 지원이 명시적으로 나열되어 있습니다:

GLM 시리즈 (5.2, 5.1, 5, 4.7, 4.6, 4.5)
Qwen 변형 모델 (3.6, 3.5, 3Next, 3MoE, 3, 2.5)
DeepSeek (V3, V3.1, R1)
Llama 3

이것은 단순한 호환성 목록이 아니라, 배포 기록입니다. 이 모델들은 slime을 통해 학습되었거나 미세 조정 (fine-tuned)되었습니다. GLM-5.2를 만들어낸 이 프레임워크는 Alibaba의 Qwen 제품군, DeepSeek의 V3, 그리고 Meta의 Llama 3에도 적용되었습니다.

X(구 트위터)의 Zhihu Frontier 계정은 slime v0.1.0의 출시를 심도 있는 기술 분석과 함께 기록하며, 이것이 "고성능 RL 인프라를 재정의했다"고 언급했습니다. 이후 릴리스를 통해 FSDP 백엔드 지원, PPO, 다중 토큰 예측 (Multi-Token Prediction) 학습, 그리고 전체 FP8 스택 지원이 추가되었습니다.

공장을 오픈 소스로 공개하면 모든 모델이 혜택을 입습니다. 그리고 여러 최첨단 연구소들이 공유된 RL 학습 프레임워크로 모여들 때, 그 개선 사항은 전체 오픈 웨이트 (open-weights) 생태계 전반에 걸쳐 복리로 작용합니다.

생태계는 이미 형성되어 있습니다

slime이 "흥미로운 오픈 소스 프로젝트"를 넘어 "프로덕션 인프라"로 넘어왔음을 보여주는 가장 명확한 신호는 그 주변에 형성되고 있는 생태계입니다:

Miles (RadixArk 제작) — "slime과 함께 공진화(co-evolving)한다"고 설명되는 엔터프라이즈급 포크(fork)로, 프로덕션 신뢰성 기능을 추가하여 "연구용 강화학습 (RL)과 프로덕션급 신뢰성 사이의 간극"을 메워줍니다.
AMD Day-0 support — AMD는 출시 첫날부터 Instinct GPU에서 slime 지원을 제공했습니다. 하드웨어 벤더가 귀하의 학습 프레임워크에 엔지니어링 리소스를 투입한다는 것은 인프라급 검증이 이루어졌음을 의미합니다.
Hermes Agent (Nous Research 제작) — 에이전트 프레임워크 내의 하나의 기술(skill)로 slime을 통합하여, 강화학습 (RL) 사후 학습 (post-training)을 AI 에이전트 스스로가 오케스트레이션(orchestrate)할 수 있는 요소로 다룹니다.
Dressage (Alibaba 제작) — slime의 아키텍처를 기반으로 구축되었으며, 샌드박스 환경 전반에 걸쳐 블랙박스 에이전트를 위한 통합 강화학습 (RL)을 제공합니다.
vime — vLLM 프로젝트의 대안적인 롤아웃(rollout) 백엔드로, 가장 인기 있는 오픈 소스 추론 엔진(inference engine)까지 slime의 영향력을 확장합니다.