GLM-5.2: GPT-5.5 및 Claude Opus에 도전하는 저비용 오픈 웨이트 (Open-Weight) 모델
요약
Zhipu AI가 출시한 GLM-5.2는 7,440억 개의 파라미터를 가진 MoE 기반 오픈 웨이트 모델입니다. GPT-5.5 및 Claude Opus와 경쟁할 만한 성능을 갖추었으며, 100만 토큰의 컨텍스트 윈도우와 매우 낮은 비용이 특징입니다.
핵심 포인트
- 7,440억 파라미터 MoE 아키텍처 적용
- 오픈 웨이트 모델 중 Artificial Analysis 지수 최고점 기록
- 100만 토큰의 대규모 컨텍스트 윈도우 지원
- 폐쇄형 모델 대비 1/5~1/6 수준의 저렴한 비용
- 에이전트 코딩 및 장기 공학 작업에 최적화
Tsinghua University에서 파생된 Zhipu AI의 상업 브랜드인 Z.ai가 2026년 6월 13일에 출시한 GLM-5.2는 오픈 웨이트 (Open-Weight) 거대 언어 모델 (LLM) 환경에서 중요한 변곡점을 기록했습니다. 이 모델은 7,440억 개의 파라미터를 가진 전문가 혼합 (Mixture-of-Experts, MoE) 모델로, 토큰당 약 400억 개의 파라미터를 활성화하며, GPT-5.5 및 Claude Opus 4.8과 같은 폐쇄형 (Proprietary) 경쟁사 비용의 극히 일부만으로 코딩, 에이전트 (Agentic), 그리고 장기적 공학 (Long-horizon engineering) 작업에서 최첨단 (Frontier-class) 성능을 제공합니다.
Artificial Analysis Intelligence Index v4.1에서 GLM-5.2는 51점을 기록하며, 현재까지 출시된 모든 오픈 웨이트 모델 중 가장 높은 점수를 받았습니다. FrontierSWE 벤치마크에서는 Claude Opus 4.8에 단 1% 뒤처지며, GPT-5.5를 1% 차이로 앞질렀습니다. Terminal-Bench 2.1에서는 81.0점을 기록하며 80% 임계값을 넘긴 최초의 오픈 웨이트 모델이 되었습니다. 이 모델은 MIT 라이선스를 따르며, 실제로 사용 가능한 100만 토큰의 컨텍스트 윈도우 (Context window)를 특징으로 합니다. 비용은 입력 토큰 100만 개당 약 1.40달러로, 출력 토큰 기준 GPT-5.5의 약 6분의 1, Claude Opus 4.8의 약 5분의 1 수준입니다.
배경 및 아키텍처 (Background and Architecture)
GLM (General Language Model) 제품군은 2021년 Tsinghua University에서 시작된 영어-중국어 이중 언어 연구 프로젝트로 시작되었으며, 이후 정기적인 주요 릴리스를 통해 진화해 왔습니다. 이 연구에서 분사된 상업적 실체인 Zhipu AI는 Z.ai 브랜드로 모델을 출시합니다. GLM-5 세대는 GLM-5 제품군 arXiv 논문에서 설명된 바와 같이, 바이브 코딩 (Vibe coding)에서 에이전트 공학 (Agentic engineering)으로의 전환을 구체적으로 겨냥하여 포지셔닝되었습니다.
GLM-5.0은 현대적인 MoE 아키텍처를 도입했습니다. GLM-5.1은 컨텍스트 한계를 200K로 높이고 도구 사용 (Tool-use) 능력을 개선했습니다. GLM-5.2는 에이전트 코딩 (Agentic-coding) 플래그십 모델로, 1M 컨텍스트 윈도우로 도약하며 실질적으로 더 나은 장기적 (Long-horizon) 점수를 제공합니다. GLM-5.1 (Intelligence Index 점수: 40)에서 GLM-5.2 (점수: 51)로의 버전 간 차이는 11점의 향상을 나타내며, 이는 업계의 대부분의 마이너 버전 릴리스보다 더 큰 도약입니다.
핵심 사양 (Core Specifications)
| 사양 (Specification) | 세부 사항 (Detail) |
|---|---|
| 총 파라미터 수 (Total Parameters) | 744 billion (MoE) |
| 활성 파라미터/토큰 (Active Parameters/Token) | ~40 billion |
| 컨텍스트 윈도우 (Context Window) | 1,000,000 tokens |
| 최대 출력 토큰 (Max Output Tokens) | 응답당 131,072 |
| 추론 모드 (Reasoning Modes) | High 및 Max thinking effort |
| 라이선스 (License) | MIT (open weights) |
| 가중치 사용 가능 여부 (Weights Available) | Hugging Face: zai-org/GLM-5.2 |
| 가중치 형식 (Weight Formats) | BF16 및 FP8 |
| 출시일 (Release Date) | 2026년 6월 13일 |
아키텍처 내부 (Inside the Architecture)
GLM-5.2는 희소 전문가 혼합 (sparse Mixture-of-Experts, MoE) 트랜스포머 아키텍처를 기반으로 구축되었습니다. 이 아키텍처에서는 라우팅 메커니즘 (routing mechanism)이 각 토큰에 대해 전문가 네트워크의 작은 하위 집합을 선택하여, 모델의 거대한 744B 총 파라미터 수에도 불구하고 추론 비용을 관리 가능한 수준으로 유지합니다. 순전파 (forward pass)당 약 40B의 파라미터만 활성화되며, 이것이 이 모델을 대규모로 경제성 있게 서비스할 수 있게 만드는 핵심입니다. 이 아키텍처는 개념적으로 DeepSeek의 접근 방식과 유사하지만, Zhipu 연구팀의 독자적인 개선 사항이 포함되어 있습니다.
GLM-5.2에서 아키텍처적으로 가장 중요한 혁신은 IndexShare입니다. 이는 1M 토큰 컨텍스트 윈도우가 단순히 사양서상의 숫자에 그치지 않고 실제로 사용 가능하도록 설계된 새로운 어텐션 최적화 (attention optimization) 기술입니다. DeepSeek Sparse Attention (DSA)와 같은 표준 희소 어텐션 (sparse attention) 메커니즘에서는 각 트랜스포머 레이어가 자체적인 어텐션 인덱스를 독립적으로 계산하며, 이는 극단적인 컨텍스트 길이에서 계산 비용을 높이는 원인이 됩니다.
IndexShare는 연속된 4개의 희소 어텐션 레이어 전체에 걸쳐 단일 경량 인덱서 (lightweight indexer)를 재사용함으로써 이 문제를 해결합니다. 인덱서는 4개의 레이어 중 첫 번째 레이어에서 실행되며, 계산된 top-k 인덱스는 4개 레이어 전체에서 공유됩니다. 이를 통해 4개 레이어 중 3개 레이어에서의 중복된 인덱스 계산을 제거하여, 1M 컨텍스트 길이에서 토큰당 FLOPs를 2.9배 감소시킵니다. 이 모델은 128K 시퀀스 길이의 중간 학습 (mid-training) 단계부터 IndexShare를 적용하여 학습되었으며, 더 적은 계산량을 사용하면서도 롱 컨텍스트 (long-context) 벤치마크에서 GLM-5.1보다 뛰어난 성능을 보여줍니다.
GLM-5.2는 또한 추측적 디코딩 (speculative decoding)을 위한 초안 모델 (draft model) 역할을 하는 다중 토큰 예측 (Multi-Token Prediction, MTP) 레이어의 개선 사항을 도입했습니다. 두 가지 핵심 목표는 MTP 레이어의 계산 비용을 최소화하는 동시에 추측된 토큰의 수락률 (acceptance rate)을 극대화하는 것이었습니다. IndexShare 또한 MTP 레이어에 적용되었는데, 여기서 인덱서 (indexer)는 첫 번째 단계에 배치되며 top-k 인덱스는 후속 단계에서 재사용됩니다. 또한, KVShare라고 불리는 기술을 통해 MTP 헤드와 백본 모델 (backbone model) 간의 키-값 캐시 (key-value caches) 공유가 가능해졌습니다. 이러한 개선 사항들이 결합되어 추측적 디코딩 수락 길이 (speculative decoding acceptance length)를 최대 20%까지 증가시키며, 출력 품질을 희생하지 않으면서도 추론 처리량 (inference throughput)을 크게 향상시킵니다.
벤치마크 성능
GLM-5.2는 실질적인 AI 보조 소프트웨어 엔지니어링의 최전선을 나타내는 롱 호라이즌 에이전트 코딩 (long-horizon agentic coding) 작업을 위해 특별히 설계되고 벤치마크되었습니다. 이는 모델이 단순히 단일 코드 스니펫을 생성하는 것이 아니라, 수 시간에 걸친 지속적인 작업에 대해 계획, 실행, 테스트, 디버깅 및 반복을 수행해야 하는 작업입니다.
시스템 최적화, 대규모 코드 구축, 응용 ML 연구를 아우르는 개방형 기술 프로젝트를 에이전트가 완료할 수 있는지 측정하는 FrontierSWE에서, GLM-5.2는 Claude Opus 4.8에 불과 1% 뒤처지며, GPT-5.5를 1% 차이로 앞서고 Claude Opus 4.7을 11% 차이로 앞섭니다. 에이전트에게 H100 GPU가 주어지고 사후 학습 (post-training)을 통해 소형 모델을 얼마나 개선할 수 있는지 평가하는 PostTrainBench에서, GLM-5.2는 Opus 4.7과 GPT-5.5를 모두 능가하며 Opus 4.8에 이어 2위를 기록했습니다. 컴파일러 구축, 커널 최적화 및 프로덕션 서비스 개발을 다루는 초장기 호라이즌 (ultra-long-horizon) 벤치마크인 SWE-Marathon에서 GLM-5.2는 Opus 4.8에 13% 뒤처지지만, 여전히 Opus 시리즈 다음으로 높은 순위를 유지하고 있습니다.
표준 코딩 벤치마크
| 벤치마크 | GLM-5.2 | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 81.0 | 85.0 | 78.0 | 73.5 |
| SWE-bench Pro | 62.1 | 65.0 | 58.0 | 54.2 |
| MCP-Atlas | 77.0 | 78.0 | 74.0 | 71.5 |
| ProgramBench | 63.7 | 66.0 | 60.0 | 56.3 |
Humanity's Last Exam (tools)
54.7
57.0
55.0
52.1
특히, GLM-5.2는 Code Arena: Frontend 리더보드에서 프론트엔드 코딩 (frontend coding) 부문 세계 1위를 달성하며 Claude Opus 4.8을 포함한 모든 모델을 제쳤습니다. 또한 Design Arena 벤치마크에서도 정상을 차지하며 UI/UX 코드 생성 (code generation) 분야에서 탁월한 능력을 입증했습니다. Latent Space와 MindStudio가 인용한 독립적인 제3자 평가에 따르면, 디자인 및 프론트엔드 작업에서 GLM-5.2의 성능은 전반적인 코딩 벤치마크 점수가 시사하는 것 이상이며, 이는 웹 개발 및 인터페이스 디자인 워크플로우 (workflows)에 있어 매우 매력적인 선택지로 만듭니다.
Artificial Analysis Intelligence Index v4.1에서 GLM-5.2는 51점을 기록하며, 역대 기록된 오픈 웨이트 (open-weights) 모델 중 가장 높은 순위를 차지했습니다. 이 종합적인 복합 지수 (composite index)는 코딩 (coding), 추론 (reasoning), 수학 (mathematics), 일반 지식 (general knowledge)을 포함한 여러 차원에서 모델을 평가합니다. 이 점수는 GLM-5.2를 폐쇄형 소스 (closed-source) 대안 모델들과 경쟁 가능한 수준으로 올려놓았으며, 이전 모델인 GLM-5.1 대비 11점 향상된 수치입니다.
가격 및 액세스 (Pricing and Access)
2026년 6월 16일에 출시된 GLM-5.2의 단독 API는 입력 토큰 100만 개당 $1.40, 출력 토큰 100만 개당 $4.40로 책정되었습니다. 캐시된 입력 토큰 (cached input tokens) 비용은 100만 개당 $0.26에 불과하며, 캐시된 입력 저장 (cached input storage)은 한시적으로 무료입니다. 이러한 가격 구조 덕분에 GLM-5.2는 사용 가능한 프론티어급 (frontier-class) 모델 중 가장 비용 효율적인 모델 중 하나가 되었으며, 혼합 비용 (blended cost) 기준으로 Claude Opus 4.8보다 약 5~7배, GPT-5.5보다 약 6배 저렴하게 운영됩니다.
| 모델 (Model) | 입력 (1M당) | 출력 (1M당) | GLM-5.2 대비 혼합 비율 (Blended Ratio) |
|---|---|---|---|
| GLM-5.2 (Z.ai) | $1.40 | $4.40 | 1x (기준점) |
| GPT-5.5 (OpenAI) | $5.00 | $30.00 | ~7x |
| Claude Opus 4.8 (Anthropic) | $5.00 | $25.00 | ~6x |
| GLM-5.2 (OpenRouter) | $0.95 | $3.00 | ~0.7x |
| GLM-5.2 (최저가 제공업체) | $0.72 | $3.00 | ~0.5x |
개인 개발자와 팀을 위해, Z.ai는 네 가지 구독 티어(tier)로 구성된 GLM Coding Plan을 제공합니다. 월 약 $3에서 $6 사이인 Lite 티어는 가벼운 일상적 사용을 위해 설계되었습니다. 월 약 $15에서 $19 사이인 Pro 티어는 더 높은 속도 제한(rate limits)을 가진 전업 개인 개발자를 대상으로 합니다. 월 약 $80 수준인 Max 티어는 대규모 에이전트(agentic) 및 긴 컨텍스트(long-context) 워크로드를 지원합니다. Team 티어는 공유 좌석(shared seats)을 사용하는 조직을 위해 맞춤형 가격을 제공합니다. 이러한 플랜은 사용량을 토큰(token) 단위가 아닌 사이클당 프롬프트(prompt) 단위로 측정하지만, 종량제 API 과금 방식에 비해 예측 가능한 비용을 제공합니다.
GLM-5.2는 MIT 라이선스를 따르기 때문에, 조직은 Hugging Face에서 가중치(weights)를 다운로드하여 자체 인프라 내에 모델을 배포할 수 있습니다. 이는 초기 하드웨어 투자 이후 토큰당 비용을 완전히 제거하여, 엄격한 데이터 거버넌스(data governance) 요구 사항이나 대량 사용 패턴을 가진 기업에 매력적입니다. 모델은 BF16 및 FP8 형식 모두로 제공되며, FP8은 품질 저하를 최소화하면서 약 50%의 메모리 절감 효과를 제공합니다. vLLM, SGLang, Transformers를 포함한 추론 스택(inference stacks)은 GLM-5.2에 대한 데이 제로(day-zero) 지원을 제공합니다.
GLM-5.2 사용 방법
GLM-5.2에 접근하는 세 가지 주요 방법이 있습니다. 첫째, GLM Coding Plan 구독은 지원되는 코딩 도구 내에서 작업하는 개발자에게 가장 간단한 진입점을 제공하며, 프롬프트 기반 할당량(quotas)과 함께 예측 가능한 정액제 가격을 제공합니다. 둘째, 백만 토큰당 $1.40/$4.40인 독립형 API는 프로그래밍 방식의 접근, 맞춤형 에이전트 구축, 그리고 가변적이거나 급증하는(bursty) 사용 패턴에 이상적입니다. 셋째, MIT 라이선스 가중치를 자체 인프라에 셀프 호스팅(self-hosting)하는 것은 초기 하드웨어 투자와 운영 오버헤드(operational overhead)를 감수하는 대신, 최대의 제어권, 제로 토큰 비용, 그리고 완전한 데이터 프라이버시를 제공합니다.
GLM-5.2는 주요 AI 인프라 생태계 전반에 걸쳐 출시 당일 지원(day-zero support)을 받았습니다. vLLM, SGLang, Cloudflare Workers AI, OpenRouter, DeepInfra, Fireworks, Baseten, FriendliAI, 그리고 Ollama Cloud를 포함한 추론 플랫폼(Inference platforms)들이 즉시 지원을 시작했습니다. Notion은 GLM-5.2를 모델 옵션으로 통합했습니다. 이 모델은 여러 제공업체의 OpenAI 호환 API를 통해 접근할 수 있어, 기존 GPT 기반 애플리케이션을 즉시 교체하여 사용할 수 있습니다. 커뮤니티 실무자들은 Cursor, Windsurf 및 기타 AI 기반 코딩 환경을 통해 GLM-5.2를 성공적으로 실행했다고 보고했습니다.
주요 이점 및 실제 사용 사례
GLM-5.2는 여러 핵심적인 측면에서 가치를 제공합니다. 자율 코딩 에이전트(autonomous coding agents)의 경우, 1M 토큰의 컨텍스트 윈도우(context window)와 강력한 에이전트 벤치마크(agentic benchmark) 성능 덕분에 초기 계획부터 구현, 테스트, 디버깅에 이르기까지 전체 프로젝트 수명 주기 동안 지속적인 일관성이 필요한 장기 코딩 세션에 독보적으로 적합합니다. 이 모델은 단순히 더 많은 토큰을 수용하는 것에 그치지 않고, 길고 복잡한 코딩 에이전트 궤적(trajectories) 전반에 걸쳐 품질을 유지할 수 있습니다.
프론트엔드 및 디자인 엔지니어링 측면에서, GLM-5.2는 Code Arena: Frontend and Design Arena 벤치마크에서의 선도적인 위치를 바탕으로 웹 개발, UI 컴포넌트 생성 및 인터페이스 디자인 작업에 최적의 선택이 됩니다. AI 예산을 관리하는 조직의 경우, 폐쇄형(closed-source) 프런티어 모델 대비 5배에서 7배에 달하는 비용 우위를 통해 상당한 비용 절감을 달성하거나 동일한 예산으로 사용량을 극적으로 늘릴 수 있습니다.
MIT 라이선스는 상업적 유연성을 제공하여, 조직이 제한 없이 모델을 미세 조정(fine-tune)하고 수정하며 배포할 수 있도록 합니다. 이는 규제가 엄격한 산업군과 엄격한 데이터 거주성(data residency) 요구 사항을 가진 기업에 적합합니다.
실제 현업 종사자들이 이러한 역량을 검증했습니다. 저명한 AI 교육자인 Sentdex는 이를 Opus 및 GPT급 워크플로우를 합리적으로 대체할 수 있는 최초의 오픈 모델이라고 평가했습니다. Reddit의 r/opencodeCLI 커뮤니티에서는 한 사용자가 3달러 미만의 비용으로 1,900만 토큰의 GLM-5.2를 사용했다고 보고했습니다. Cursor 커뮤니티 포럼에서는 사용자들이 GLM-5.2의 놀라운 벤치마크 성능과 GPT-5.5 및 Opus 4.8 대비 낮은 비용을 언급하며, 네이티브 GLM-5.2 통합을 적극적으로 요청하고 있습니다.
전략적 비교
| 기능 | GLM-5.2 | GPT-5.5 | Claude Opus 4.8 | DeepSeek V4 |
|---|---|---|---|---|
| 라이선스 (License) | MIT (Open) | 독점 (Proprietary) | 독점 (Proprietary) | MIT (Open) |
| 파라미터 (Parameters) | 744B / 40B active | 미공개 (Undisclosed) | 미공개 (Undisclosed) | ~670B / 37B active |
| 컨텍스트 윈도우 (Context Window) | 1M tokens | 1M tokens | 200K tokens | 1M tokens |
| Terminal-Bench 2.1 | 81.0 | 78.0 | 85.0 | 74.5 |
| 프론트엔드 코딩 (Frontend Coding) | 1위 (세계) | 3위 | 2위 | 4위 |
| API 비용 (입력/1M) | $1.40 | $5.00 | $5.00 | $1.20 |
| API 비용 (출력/1M) | $4.40 | $30.00 | $25.00 | $4.80 |
| 자체 호스팅 가능 (Self-Hostable) | 예 (Yes) | 아니오 (No) | 아니오 (No) | 예 (Yes) |
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기