GLM-5.2 vs Opus 4.8: 오픈 웨이트 (Open-Weights)의 해자(Moat)는 실재한다

Z.ai는 6월 17일에 GLM-5.2를 출시했습니다. 이는 MIT 라이선스로 공개된 100만 토큰의 컨텍스트 윈도우 (Context Window)를 가진 7,530억 개의 파라미터 규모의 전문가 혼합 (Mixture-of-Experts, MoE) 모델입니다. 출시 48시간 이내에 이 모델은 Artificial Analysis Intelligence Index에서 가장 높은 점수를 기록한 오픈 웨이트 (Open-weights) 모델이 되었습니다. 그리고 머신러닝 (Machine Learning) 분야에서 과장된 홍보를 가장 지양하는 두 목소리인 Jeremy Howard와 Sebastian Raschka는 독립적으로 이 모델을 그들이 사용해 본 최고의 오픈 웨이트 (Open-weights) 모델이라고 평가했습니다.

📖 차트와 임베디드 소스가 포함된 전체 버전을 ComputeLeap에서 읽어보세요 →

이것이 헤드라인입니다. 벤치마크 (Benchmarks)가 실제로 말하는 내용, 그리고 왜 진짜 이야기가 동등함 (Parity)이 아닌 가격 책정 (Pricing)에 관한 것인지 설명하겠습니다.

Jeremy Howard on X: GLM 5.2 is a marvel — at least as good as Opus 4.8 and GPT 5.5, super fast, inexpensive

벤치마크 (Benchmarks): 근접하지만 동일하지는 않음

GLM-5.2와 폐쇄형 프런티어 (Closed Frontier) 모델 사이에서 고민하는 개발자들에게 중요한 수치부터 살펴보겠습니다.

FrontierSWE에서 GLM-5.2는 74.4%를 기록하며, Claude Opus 4.8의 75.1%에 단 1% 포인트 미만으로 뒤처졌습니다. SWE-Bench Pro에서는 62.1%를 달성하여 GPT-5.5의 58.6%를 결정적으로 앞질렀습니다. Terminal-Bench 2.1에서는 Opus 4.8의 85.0% 대비 81.0%에 도달했습니다. GPQA Diamond: 89%. HLE: 40%입니다.

Artificial Analysis Intelligence Index에 따르면 GLM-5.2는 51점을 기록하며, 다음 순위의 오픈 웨이트 (Open-Weights) 경쟁 모델인 MiniMax-M3(44점)보다 무려 7점이나 높습니다. 동일한 인덱스에서 GLM-5.2는 지능 대비 작업당 비용의 파레토 프런티어 (Pareto frontier)에 위치하고 있습니다. 이는 이 정도의 지능 수준에서 달러당 더 많은 성능을 제공하는 다른 모델이 없음을 의미합니다.

하지만 냉혹한 현실이 있습니다. Jeremy Howard가 직접 공유한 Voratiq의 독립적인 head-to-head evaluation에 따르면, GLM-5.2가 Opus 4.8 (확장된 사고/extended thinking 포함)을 이기는 비율은 32%에 불과합니다. 확장된 사고를 사용하는 GPT-5.5를 상대로는 64%의 승률을 보였습니다. 차순위 오픈 모델인 Kimi K2.7을 상대로는 100% 승리했습니다.

Voratiq 아레나(arena)에서의 현재 순위: 56개 모델 중 3위.

voratiq head-to-head evaluation: GLM 5.2 beats Opus 4.8 xhigh 32%, GPT-5.5 xhigh 64%, Kimi K2.7 100%

이 수치들을 읽어보면 그림이 명확해집니다. GLM-5.2가 폐쇄형 프런티어 (closed frontier) 모델들을 확실히 압도하는 것은 아닙니다. 아마도 Opus 4.8을 상대로는 이길 때보다 질 때가 더 많을 것입니다. 하지만 다른 모든 오픈 웨이트 (Open-Weights) 모델들은 압도적인 차이로 제압하고 있으며, 실제 개발 작업에 중요한 거의 모든 벤치마크에서 최상위권의 사정거리 안에 있습니다.

ℹ️ GLM-5.2는 속도와 비용 효율성에 보상을 주는 벤치마크에서 승리합니다. Opus 4.8은 순수 역량의 깊이 — 광범위한 전문 지식 (HLE, GPQA) 및 가장 어려운 소프트웨어 엔지니어링 작업 (Terminal-Bench) — 에 보상을 주는 벤치마크에서 우위를 유지합니다.

아무도 무시할 수 없는 가격 이야기

이 지점이 바로 해자 (Moat) 논쟁이 실제로 존재하는 곳입니다.

GLM-5.2의 비용은 입력 토큰 100만 개당 $1.40, 출력 토큰 100만 개당 $4.40입니다. OpenRouter에서는 이보다 더 저렴하여 입력 $1.20, 출력 $4.10입니다. 캐시된 입력 (Cached input) 비용은 100만 토큰당 단 $0.26입니다.

Claude Opus 4.8은 입력 $5.00, 출력 $25.00입니다. GPT-5.5는 입력 $5.00, 출력 $30.00입니다.

이는 Opus 4.8과 비교했을 때 입력 토큰(input tokens)에서는 3.5배, 출력 토큰(output tokens)에서는 5.7배의 격차를 의미합니다. GPT-5.5와 비교하면 출력 격차는 거의 7배까지 벌어집니다.

Simon Willison이 언급했듯이, GLM-5.2는 "아마도 사용 가능한 가장 강력한 텍스트 전용 오픈 웨이트 (open weights) LLM"일 것이며, 폐쇄형(closed) 대안 모델들이 청구하는 비용의 아주 일부만 소모합니다. MIT 라이선스와 자체 호스팅 (self-host) 능력을 고려하면, 총 소유 비용 (Total Cost of Ownership, TCO) 격차는 더욱 커집니다.

Artificial Analysis의 작업당 비용은 GLM-5.2의 경우 $0.46입니다. 이것이 바로 기업 팀들이 주목할 수치입니다.

모델	입력 ($/M)	출력 ($/M)	FrontierSWE	SWE-Bench Pro	라이선스
GLM-5.2	$1.40	$4.40	74.4%	62.1%	MIT
...

폐쇄형 프런티어 (closed frontier) 모델들을 성능 면에서 극적으로 압도하지 않으면서도, 그들을 비싸 보이게 만드는 첫 번째 오픈 웨이트 모델은 우리가 이전 오픈 모델들에서 보았던 것과는 근본적으로 다른 경쟁 역학을 보여줍니다. 올해 초 MiniMax M3가 SWE-Bench Pro에서 59%를 기록했을 때 그것이 첫 번째 균열이었습니다. GLM-5.2는 두 번째 균열이며, 그 규모는 더 큽니다.

아키텍처: IndexShare와 1M 컨텍스트가 중요한 이유

GLM-5.2는 전문가 혼합 (Mixture-of-Experts, MoE) 아키텍처를 사용합니다. 총 파라미터는 7,530억 개이며, 순전파 (forward pass) 시 활성화되는 파라미터는 400억 개뿐입니다. 이는 GLM-5 제품군의 MLA (Multi-head Latent Attention) 및 DSA (DeepSeek Sparse Attention) 메커니즘을 기반으로 구축되었습니다.

새로운 기술적 기여는 IndexShare이며, 이는 Sebastian Raschka가 상세한 아키텍처 노트를 통해 다루었습니다. 모든 트랜스포머 (transformer) 레이어에서 희소 주의 집중 (sparse-attention) top-k 인덱서를 계산하는 대신, GLM-5.2는 4개 레이어마다 한 번씩 전체 인덱서를 실행하고 그 사이의 레이어에서는 선택된 토큰 인덱스를 재사용합니다. 이를 통해 100만 토큰 컨텍스트 길이를 기준으로 토큰당 FLOPs를 2.9배 감소시킵니다.

Sebastian Raschka on X: The best open-weight model today — architecture breakdown

Raschka의 평가: "오늘날 최고의 오픈 웨이트 (Open-weight) 모델입니다." 그의 초점은 과장된 홍보가 아닌 아키텍처(Architecture)에 맞춰져 있었습니다. 즉, 교차 레이어 재사용 (cross-layer reuse)으로 정교화된 MLA와 DeepSeek Sparse Attention의 결합입니다. 1M 컨텍스트 윈도우 (Context window)는 GLM-5.1의 200K 대비 5배 증가한 수치이며, 이는 단순한 합성 데이터 기반의 '건더기 찾기 (needle-in-a-haystack)' 테스트뿐만 아니라 전체 범위에서 안정적인 성능을 유지하는 진정한 1M입니다.

MTP (Multi-Token Prediction, 다중 토큰 예측) 레이어의 경우, GLM-5.2는 투기적 디코딩 (Speculative decoding)에 IndexShare를 적용하여 수락 길이 (Acceptance length)를 20% 증가시켰습니다. 이 설계는 투기적 디코딩을 위해 거부 샘플링 (Rejection sampling)을 사용하고, 훈련을 위해 엔드투엔드 (End-to-end) TV 손실 (Loss)을 사용합니다. 이를 통해 GLM-5.1을 괴롭혔던 훈련-추론 간의 불일치 (Training-inference discrepancy) 문제를 해결했습니다.

레시피는 공개되어 있습니다: slime과 이틀간의 사후 훈련 (Post-train)

이것은 모델 자체보다 어쩌면 더 큰 뉴스일 수 있습니다.

Z.ai는 GLM-5.2(및 GLM-4.5 이후의 모든 GLM 모델)를 훈련시킨 SGLang 네이티브 사후 훈련 프레임워크인 slime을 오픈 소스로 공개했습니다. 이 프레임워크는 세 가지 핵심 모듈을 통해 데이터 생성과 훈련을 분리합니다: 훈련을 위한 Megatron, 롤아웃 (Rollout)을 위한 SGLang, 그리고 프롬프트, 커스텀 데이터 및 생성 방법을 관리하는 공유 데이터 버퍼 (Data Buffer)입니다.

Z.ai에 따르면, GLM-5.2를 위한 전체 OPD (Online Preference-based Direct training, 온라인 선호도 기반 직접 훈련) 사후 훈련은 병렬 훈련을 통해 10개 이상의 전문가 모델을 병합하며 약 이틀 만에 완료되었습니다.

Jeremy Howard가 강조했듯이, RL (강화학습) 사후 훈련 스택은 이제 공개되었으며, 이 레시피에는 약 이틀간의 컴퓨팅 자원이 소요되었습니다. Slime은 이미 GitHub에서 6.6k개의 스타를 기록하고 있으며, 물리 추론 및 비디오 생성 워크플로우를 포함하여 이를 기반으로 구축된 8개의 생태계 프로젝트를 보유하고 있습니다.

💡 사후 학습 (Post-training) 레시피에는 코딩 강화학습 (RL) 과정 중 보상 착취 (Reward exploitation)를 방지하는 안티 해킹 메커니즘이 포함되어 있습니다. 이는 코드용 인간 피드백 기반 강화학습 (RLHF)에서 가장 어려운 문제 중 하나에 대한 실질적인 해결책입니다. Slime은 화이트박스 롤아웃 (White-box rollout), 블랙박스 롤아웃 (Black-box rollout), 컴팩트 궤적 (Compact trajectory), 그리고 서브 에이전트 워크플로우 (Sub-agent workflow) 모드를 지원합니다.

이것이 실무적으로 의미하는 바는 다음과 같습니다: 충분한 컴퓨팅 자원을 가진 팀이라면 누구나 사후 학습 단계를 복제할 수 있습니다. 베이스 모델 아키텍처는 공개되어 있습니다. 학습 프레임워크는 MIT 라이선스를 따릅니다. "사전 학습된 모델 (Pretrained model)"에서 "프런티어 인접 모델 (Frontier-adjacent model)"로 가는 경로가 이제 완전히 공개되었습니다.

DeepSeek V4가 출시되었을 당시에는 레시피가 이 정도로 공개적이지 않았습니다. Kimi K2.6 또한 마찬가지였습니다. GLM-5.2는 사후 학습 인프라를 완전히 재현할 수 있는 최초의 프런티어 인접 모델이며, 이는 그 어떤 벤치마크 수치보다 더 크게 역학 관계를 변화시킵니다.

수출 금지 맥락

이 타이밍은 무시할 수 없습니다. GLM-5.2의 오픈 웨이트 (Open-weights) 출시는 미국 정부가 Anthropic의 Fable 5 및 Mythos 5에 대해 외국 국적자의 접근을 제한한 같은 주에 이루어졌습니다. Bill Gurley가 언급했듯이: "Zhipu의 이번 행보는 또 다른 DeepSeek 모먼트처럼 느껴집니다... 미국은 오픈 소스를 양보할 여유가 없었습니다."

Deirdre Bosa on X: Zhipu's latest model feels like another DeepSeek moment

아이러니는 스스로 증명됩니다. 미국은 자국 연구소의 폐쇄형 모델을 제한하고 있으며, 바로 그 시기에 중국의 연구소는 프런티어 인접 역량을 MIT 라이선스 웨이트로서 Hugging Face에서 다운로드할 수 있게 배포하고 있습니다. 모델 웨이트에 대한 수출 통제는 오픈 소스 커뮤니티가 이미 우회하고 있는 도로 위의 톨게이트와 같습니다.

이는 GLM-5.2가 금지 조치에 대한 직접적인 대응은 아니라는 의미입니다. 이 모델은 훨씬 이전부터 개발 중이었기 때문입니다. 하지만 이러한 대비는 전략적 그림을 더욱 선명하게 만듭니다. 즉, 폐쇄형(closed-model) 접근 제한이 해외 AI 역량을 제약한다는 정책적 가정은 FrontierSWE에서 74.4%를 기록한 MIT 라이선스 기반의 753B 파라미터 모델과 접촉하면서 성립하기 어렵다는 것입니다.

If you want to run GLM-5.2 locally를 통해 GLM-5.2를 로컬에서 실행하고 싶다면, 지난주에 하드웨어 및 설정 가이드를 게재했습니다. 이 가이드에는 다양한 양자화(quantization) 레벨을 위한 llama.cpp, Ollama, LM Studio 구성 방법이 포함되어 있습니다.

커뮤니티가 실제로 말하는 것

GLM-5.2에 대한 신호 대 잡음비(signal-to-noise ratio)는 이 모델을 칭찬하는 사람들이 평소 그렇지 않은 사람들로 구성되어 있어 비정상적으로 높습니다.

fast.ai 설립자이자 과장된 기대감에 본능적으로 회의적인 Jeremy Howard는 이를 “경이로움(a marvel)”이라고 부르며, 자신이