GLM-5.2: 장기 작업(Long-Horizon Tasks)을 위해 구축됨

견고한 1M-토큰 컨텍스트 (1M-token context). GLM-5.2의 새로운 기능은 다음과 같습니다:

견고한 1M 컨텍스트 (Solid 1M Context): 장기 작업 (long-horizon work)을 안정적으로 유지하는 견고한 1M-토큰 컨텍스트
유연한 노력을 통한 고급 코딩 (Advanced Coding with Flexible Effort): 성능과 지연 시간 (latency) 사이의 균형을 맞추기 위해 여러 사고 노력 (thinking effort) 수준을 제공하는 더욱 강력한 코딩 능력
개선된 아키텍처 (Improved Architecture): 우리는 4개의 희소 어텐션 (sparse attention) 레이어마다 동일한 인덱서 (indexer)를 재사용하여, 1M 컨텍스트 길이에서 토큰당 FLOPs를 2.9배 감소시키는 IndexShare를 제안합니다. 또한 추측적 디코딩 (speculative decoding)을 위해 GLM-5.2의 MTP 레이어를 개선하여 수락 길이 (acceptance length)를 최대 20%까지 증가시켰습니다.
순수 오픈 소스 (Pure Open): MIT 오픈 소스 라이선스 — 지역적 제한 없음, 경계 없는 기술적 접근

장기 작업 (long-horizon tasks)을 지원하는 것은 긴 컨텍스트 엔지니어링 (long context engineering)을 사용 가능하게 만드는 것에서 시작됩니다. 즉, 모델은 단순히 더 많은 토큰을 수용하는 것이 아니라, 길고 복잡한 코딩 에이전트 (coding-agent) 궤적 전반에 걸쳐 품질을 유지해야 합니다. 1M 컨텍스트를 주장하는 것은 쉽지만, 실제 엔지니어링 압박 속에서 신뢰성을 유지하는 것은 훨씬 더 어렵습니다. 이를 위해 우리는 대규모 구현, 자동화된 연구, 성능 최적화 및 복잡한 디버깅을 포함하여 코딩 에이전트 시나리오를 위한 1M-컨텍스트 학습을 대폭 확장했습니다. 그 결과, 범위가 넓을 뿐만 아니라 실행력이 견고한 롱 컨텍스트 시스템, 즉 지속적인 엔지니어링 작업을 위한 실질적인 기반(substrate)을 구축했습니다.

이러한 능력은 세 가지 장기 작업 (long-horizon) 코딩 벤치마크에서 보여준 GLM-5.2의 성능에 반영되어 있습니다. FrontierSWE는 에이전트가 시스템 최적화, 대규모 코드 구축, 응용 머신러닝 (ML) 연구를 아우르며 수 시간에서 수십 시간에 이르는 규모의 개방형 기술 프로젝트를 완료할 수 있는지 측정합니다. 이 벤치마크에서 GLM-5.2는 Opus 4.8에 단 1% 뒤처지며, GPT-5.5를 1% 차이로 앞서고 Opus 4.7을 11% 차이로 앞섭니다. 각 에이전트에게 H100 GPU가 제공되고 사후 학습 (post-training)을 통해 소형 모델을 얼마나 개선할 수 있는지로 평가하는 PostTrainBench에서, GLM-5.2는 Opus 4.7과 GPT-5.5를 모두 능가하며 Opus 4.8에 이어 2위를 기록했습니다. 컴파일러 구축, 커널 최적화, 프로덕션급 서비스 개발과 같은 작업을 다루는 초장기 작업 (ultra-long-horizon) 소프트웨어 엔지니어링 벤치마크인 SWE-Marathon에서 GLM-5.2는 여전히 성장할 여지가 있으며, Opus 4.8에 13% 뒤처지면서도 Opus 시리즈 다음으로 높은 2위를 유지하고 있습니다. 세 가지 벤치마크 모두에서 GLM-5.2는 가장 높은 순위를 기록한 오픈 소스 모델로, 1M 컨텍스트 (context)가 실질적인 장기 작업 수행 능력으로 전환되었음을 보여줍니다.

표준 코딩 벤치마크에서 GLM-5.2는 가장 강력한 오픈 소스 모델이며, GLM-5.1에 비해 큰 폭으로 개선되었습니다: Terminal-Bench 2.1에서 81.0 대 63.5, SWE-bench Pro에서 62.1 대 58.4를 기록했습니다. 또한 폐쇄형 프런티어 (closed-source frontier) 모델과의 격차도 상당 부분 좁혔습니다. Terminal-Bench 2.1 (81.0)에서 Claude Opus 4.8 (85.0)과 불과 몇 점 차이로 근접했으며, Gemini 3.1 Pro보다는 앞서 있습니다.

GLM-5.2는 또한 노력 수준 제어 (effort level control)를 도입하여, 사용자가 모델의 능력과 작업 실행 속도 및 계산 비용 (computational cost) 사이의 균형을 명시적으로 맞출 수 있도록 합니다. 그림에서 볼 수 있듯이, GLM-5.2는 유사한 토큰 예산 (token budgets) 하에서 GLM-5.1보다 실질적으로 더 강력한 에이전트 코딩 (agentic coding) 성능을 제공하며, 유사한 토큰 소비량 하에서 그 능력은 Claude Opus 4.7과 Claude Opus 4.8 사이에 위치합니다. 또한, 최대 (Max) 노력 수준을 통해 사용자는 도전적인 작업에서 더 높은 성능이 필요할 때 추가적인 계산 자원을 할당할 수 있으며, 이를 통해 모델의 코딩 능력을 더욱 확장할 수 있습니다. 이러한 설계는 사용자가 코딩 작업을 위해 GLM-5.2를 사용할 때 더 큰 유연성을 제공하며, 다양한 시나리오에 가장 적합한 추론 모드 (reasoning mode)를 선택할 수 있게 합니다.

1M 컨텍스트 길이 (context length)를 지원하기 위해, GLM-5.2에서는 DSA 내 인덱서 (indexer)의 계산 비용을 줄이기 위해 IndexShare를 적용합니다. 구체적으로, GLM-5.2에서는 매 4개의 트랜스포머 레이어 (transformer layers)마다 경량 인덱서를 공유합니다. 인덱서는 4개 레이어의 첫 번째에 배치되며, 4개 레이어에 대해 topk 인덱스가 사용됩니다. 이는 3/4의 레이어에서 인덱서 내적 (dot product) 및 topk 연산의 계산량을 줄여줍니다. GLM-5.2는 128K 시퀀스 길이 (sequence length)의 미드 트레이닝 (mid-training) 단계부터 IndexShare를 사용하여 학습되었으며, 더 적은 계산량으로도 롱 컨텍스트 (long-context) 벤치마크에서 GLM-5.1을 능가합니다.

우리는 두 가지 목표를 가지고 추측적 디코딩 (speculative decoding)을 위해 GLM-5.2의 MTP 레이어를 개선했습니다: 1) 초안 모델 (draft model)로서의 MTP 레이어 비용 최소화; 2) 추측적 디코딩의 수락률 (acceptance rate) 최대화.

첫 번째 목표를 위해, 우리는 MTP 레이어에 IndexShare를 적용합니다. 다단계 (multi-step) MTP에서 인덱서 (indexer)는 첫 번째 단계에 배치되며, 이후 모든 단계에는 topk 인덱스가 사용됩니다. 그러나 백본 (backbone)과 달리, 서로 다른 MTP 단계의 입력 토큰은 서로 다릅니다. 다음 그림에서 볼 수 있듯이, 만약 $h_4$의 topk 인덱스를 $h_5$에 재사용한다면, $h_5$는 $h_1$부터 $h_4$까지는 어텐드 (attend)할 수 있지만, $h_5$ 자체에는 어텐드할 수 없습니다. 우리는 이러한 특성이 GLM-5.1의 MTP 레이어에서 발생하는 훈련-추론 불일치 (training-inference discrepancy)를 제거함으로써 두 번째 목표를 달성하는 데 도움이 될 수 있음을 보여줄 것입니다.

위 그림에서 우리는 2단계 MTP 레이어의 추론 (inference) 과정을 보여줍니다. 첫 번째 단계에서는 모든 은닉 상태 (hidden states)가 타겟 모델 (target model)로부터 오기 때문에 추론이 훈련과 일치합니다. 그러나 두 번째 단계에서는 $h_{1:4}$는 타겟 모델에서 오고 $h_5$는 MTP 레이어에서 옵니다. 따라서 $h_5$의 KV 캐시 (KV cache)는 타겟 모델에서 계산된 $kv_{1:4}$와 MTP 레이어에서 계산된 $kv_5$의 혼합물입니다. 반면, IndexShare를 사용하면 $h_5$의 KV 캐시는 모두 타겟 모델의 은닉 상태에서 온 $kv_{1:4}$만을 포함하게 됩니다. 훈련의 경우, 우리는 첫 번째 MTP 단계의 KV 캐시와 topk 인덱스를 모두 재사용합니다. GLM-5.1과 마찬가지로 서로 다른 MTP 단계의 파라미터 (parameters) 또한 공유된다는 점에 유의하십시오. 또한, https://arxiv.org/abs/2606.12370 에서 영감을 받아, 우리는 추측적 디코딩 (speculative decoding)을 위한 거부 샘플링 (rejection sampling)을 도입하고, 훈련을 위해 엔드투엔드 (end-to-end) TV 손실 (loss)을 사용합니다.

아래 표는 코딩 시나리오에서 수락 길이 (acceptance length)에 따른 기술들의 어블레이션 (ablation) 연구를 보여줍니다. 실험에서는 GLM-5.1의 백본과 훈련 데이터를 사용했습니다. MTP 단계의 수는 훈련과 추론 모두 7로 설정되었습니다. 베이스라인 (baseline)과 비교했을 때, 최종 MTP 레이어의 수락 길이는 20% 증가했습니다.

방법 (Method)	수락 길이 (Acceptance Length)
베이스라인 (Baseline)	4.56
...

GLM-5.2가 최대 컨텍스트 길이 (maximum context length)를 200K에서 1M 토큰으로 확장함에 따라, 코딩 워크로드 (coding workloads)가 훨씬 더 긴 프롬프트 (prompts) 쪽으로 크게 이동할 것으로 예상됩니다. 이는 주요 추론 병목 현상 (inference bottleneck)을 연산 (computation)에서 KV-캐시 용량 (KV-cache capacity), 긴 컨텍스트 커널 오버헤드 (long-context kernel overhead), 그리고 CPU 측 오버헤드 (CPU-side overhead)로 전환시킵니다. 새로운 GLM-5.2 아키텍처는 토큰당 연산 FLOPs (per-token computational FLOPs)를 줄이지만, 토큰당 KV-캐시 크기 (per-token KV-cache size)를 비례적으로 줄이지는 않습니다. 결과적으로, 제한된 GPU 자원 하에서 더 긴 컨텍스트, 더 높은 동시성 (concurrency), 그리고 더 높은 토큰 처리량 (token throughput)을 지원하는 것이 추론 엔진 최적화 (inference engine optimization)의 핵심 과제가 됩니다.

이 과제를 해결하기 위해, 우리는 세 가지 방향으로 추론 엔진을 최적화합니다. 첫째, LayerSplit을 기반으로 더욱 세밀한 메모리 관리 (memory management) 및 병렬화 전략 (parallelization strategies)을 도입하여 KV-캐시 용량을 늘리고 초장기 컨텍스트 (ultra-long-context) 요청에 대해 더 많은 사용 가능한 캐시 공간을 제공합니다. 둘째, 컨텍스트 길이에 따라 비용이 증가하는 커널 (kernels)을 최적화하고 이를 캐시 전송 파이프라인 (cache transfer pipeline)과 더 잘 조정하여, 프리필 (prefill) 및 디코드 (decode) 성능 모두에 미치는 캐시 전송의 영향을 최소화합니다. 셋째, CPU 측 캐시 관리 (CPU-side cache management), 요청 스케줄링 (request scheduling), 그리고 런타임 실행 경로 (runtime execution paths)를 최적화하여 GPU 실행 파이프라인의 버블 (bubbles)을 줄이고 엔드 투 엔드 처리량 (end-to-end throughput)을 개선합니다. 그림에서 볼 수 있듯이, GLM-5.2는 컨텍스트 길이가 길어질수록 점점 더 큰 처리량 우위를 달성하며, 긴 컨텍스트 추론 (long-context inference) 시나리오에서 더 강력한 확장성 (scalability)을 입증합니다.

GLM-5.2의 에이전트 기반 강화학습 (agentic RL) 사후 학습 (post-training)은 더 큰 규모, 더 많은 도메인, 그리고 더 복잡한 실행 패턴을 가진 작업들을 포함합니다. 이질적인 데이터와 작업들을 통일된 학습 프로세스 내에 조직화해야 하며, 장기 상호작용 (long-horizon interactions), 도구 사용 (tool use), 하위 작업 분해 (sub-task decomposition), 그리고 다회차 환경 피드백 (multi-turn environment feedback)은 모두 롤아웃 (rollout) 및 학습 오케스트레이션 (training orchestration)에 더 높은 요구사항을 부과합니다. 이 프로세스를 지원하기 위해, slime은 학습부터 대규모 추론 롤아웃 (inference rollout)까지 아우르는 통합 인프라 계층 (infrastructure layer) 역할을 수행합니다. slime은 화이트박스 롤아웃 (white-box rollout), 블랙박스 롤아웃 (black-box rollout), 컴팩트 궤적 (compact trajectory), 그리고 서브 에이전트 워크플로우 (sub-agent workflow)를 포함한 다양한 학습 및 작업 조직 모드를 지원하여, 동일한 시스템이 더 크고 복잡한 RL 및 OPD 학습 워크로드로 확장될 수 있도록 합니다. GLM-5.2의 사후 학습 프로세스에서 우리는 slime 프레임워크를 사용하여 병렬 OPD 학습을 수행하였으며, 10개 이상의 전문가 모델 (expert models)을 최종 모델로 효율적으로 병합했습니다. 전체 OPD 학습 프로세스는 약 이틀이 소요되었으며, 이는 높은 학습 효율성을 입증합니다.

Agentic RL (에이전트 강화학습)은 또한 시스템 리소스와 추론 인프라에 더 높은 요구 사항을 부과합니다. slime은 추론 시스템에 대해 매우 개방적이고 유연한 인터페이스를 제공합니다. 즉, 학습 측면에서 다양한 형태로 추론 서비스에 연결할 수 있으며, 서로 다른 병렬화 전략 (parallelism strategies), 라우팅 정책 (routing policies), PD 분리 (PD disaggregation) 설정 및 배포 패턴에 유연하게 적응할 수 있습니다. 동시에, RL 롤아웃 (rollout) 과정에서 축적된 구성 경험, 스케줄링 전략 및 최적화 경로는 프로덕션 서빙 (production serving) 단계에서 재사용되고 더욱 정교해질 수 있어, 학습 측과 서빙 측이 서로를 강화할 수 있게 합니다. 이는 포스트 트레이닝 (post-training)에서 프로덕션 배포로 이어지는 더욱 직접적인 경로를 생성합니다. 유연한 학습-추론 리소스 구성 및 KV-cache FP8과 결합하여, slime은 GLM-5.2의 대규모 에이전트 강화학습 (agentic RL) 훈련을 위한 핵심적인 인프라 지원을 제공하며, 시스템 효율성, 롤아웃 처리량 (rollout throughput) 및 대규모 추론 동시성 (inference concurrency)을 더욱 향상시킵니다.

장기 작업 (Long-Horizon Tasks)을 위한 RL. GLM-5.2의 경우, 장기 작업은 실질적으로 훨씬 더 긴 실행 트레이스 (execution traces)를 생성하며, 일단 초장기 궤적 (super-long trajectory)이 압축 (compaction)을 통해 여러 개의 하위 트레이스 (sub-traces)로 분할되면, 동일한 프롬프트 하에서의 서로 다른 롤아웃들은 매우 가변적인 길이를 가진 서로 다른 수의 학습 가능한 트레이스를 생성하게 됩니다. 따라서 우리는 그룹 단위 최적화 (group-wise optimization)에서 개별 롤아웃으로부터 학습하는 크리틱 기반 PPO (critic-based PPO) 공식으로 전환하며, 그룹 상대적 비교 대신 토큰 수준의 어드밴티지 (token-level advantages)를 추정하기 위해 크리틱 (critic)에 의존합니다. 이 단일 롤아웃 공식은 압축 (compaction) 방식과 자연스럽게 부합하는데, 이는 프롬프트가 생성하는 트레이스의 수나 상대적 길이에 제약을 두지 않기 때문입니다. 우리는 모든 압축된 하위 트레이스를 학습 가능한 궤적으로 포함함으로써 압축을 훈련에 도입하며, 길이 불균형 문제를 해결하기 위해 토큰 수준의 손실 (token-level loss)을 적용합니다.

코딩 에이전트(Coding agents)에서의 안티 해킹 (Anti-Hack). 코딩 강화학습 (Coding RL)은 보상이 일반적으로 검증 가능한 통과/실패 (pass/fail) 신호이기 때문에 보상 해킹 (reward hacking)에 특히 취약합니다. 우리는 GLM-5.2가 GLM-5.1보다 더 많은 잠재적 해킹 동작을 보인다는 것을 발견했습니다. 이는 검증 신호를 최적화하기는 쉽게 만들지만, 모델의 근본적인 능력을 실제로 향상시키는 데는 실패합니다. 에이전트는 보호된 평가 아티팩트 (evaluation artifacts)를 읽거나, 참조 (references) 또는 상위 커밋 (upstream commits)에서 정답 내용을 복사하거나, GitHub 관련 작업에서 타겟 소스를 직접 가져올 수 있습니다. 예를 들어, 에이전트는 curl https://raw.githubusercontent.com/<path-to-file>를 통해 솔루션을 다운로드할 수 있습니다.

또는 다음과 같은 연쇄적인 유출 (chained leakage)이 발생할 수도 있습니다.

1. find /workspace -name "*hidden*"
2. cat /workspace/.eval/secret_cases.json
3. python solve.py --case "$(cat /workspace/.eval/secret_cases.json)"

이러한 동작들은 보상을 부풀리고 훈련 신호 (training signal)를 오염시키므로, 실제 작업 해결과 지름길 (shortcuts)을 분리하는 명확한 메커니즘이 필요합니다. 이를 해결하기 위해, 우리는 RL 훈련과 평가 모두를 위한 안티 해킹 (anti-hack) 모듈을 도입합니다. 탐지 프로세스는 두 단계로 구성됩니다. 먼저 규칙 기반 필터 (rule-based filter)가 재현율 (recall)을 극대화하기 위해 잠재적인 해킹을 포착하고, 그 다음 LLM 판사 (LLM judge)가 플래그가 지정된 이러한 동작들의 의도를 확인하여 정밀도 (precision)를 높게 유지합니다. 우리는 각 단계에서 도구 호출 (tool calls)을 모니터링하는 온라인 전략을 사용합니다. 해킹이 감지되면 시스템은 호출을 차단하고 결과로 더미 정보 (dummy information)를 반환합니다. 중요한 점은, 이 온라인 가드 (online guard)를 통해 해킹된 동작이 포착된 후에도 모델이 롤아웃 (rollout)을 계속할 수 있다는 것입니다. 전체 궤적 (trajectory)을 거부하는 대신 특정 무효 동작을 처리함으로써, 이 접근 방식은 롤아웃이 갑작스럽게 중단될 때 발생할 수 있는 훈련 불안정성 (training instability)과 모델 붕괴 (model collapse)를 방지하는 데 도움이 됩니다.

벤치마크 (Benchmark)	GLM-5.2	GLM-5.1	Qwen3.7-Max	MiniMax M3	DeepSeek-V4-Pro	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
추론 (Reasoning)
...
여러분이 즐겨 사용하는 코딩 에이전트(coding agents)인 ZCode, Claude Code, OpenCode 등에서 GLM-5.2를 사용해 보세요. https://docs.z.ai/devpack/overview

GLM-5.2: 장기 작업(Long-Horizon Tasks)을 위해 구축됨

요약

핵심 포인트

댓글