GLM-5.2: 비용은 1/6 수준이면서 GPT-5.5를 능가하는 오픈 소스 AI 모델

Z.ai (이전 Zhipu AI)가 AI 지형을 재편하고 있는 7,530억 개의 파라미터(parameter)를 가진 오픈 웨이트(open-weights) 모델인 GLM-5.2를 출시했습니다. 6월 16일 허용 범위가 넓은 MIT 라이선스로 공개된 GLM-5.2는 즉시 오픈 소스 리더보드(leaderboards)의 최상단으로 뛰어올랐으며, OpenAI의 GPT-5.5와 같은 폐쇄형(closed-source) 거물들을 능가하고 Anthropic의 Claude Opus 4.8의 턱밑까지 추격하고 있습니다.

수치는 무시하기 어렵습니다. 장기 코딩 작업 완료 능력을 측정하는 FrontierSWE 벤치마크(benchmark)에서 GLM-5.2는 74.4%를 기록하여 GPT-5.5의 72.6%를 앞질렀으며, Claude Opus 4.8과는 1점 차 미만으로 뒤처졌습니다. SWE-bench Pro에서는 62.1을 기록하며 GPT-5.5의 58.6을 앞섰습니다. 그리고 가격은 어떨까요? Z.ai의 API 비용은 100만 토큰(token)당 5.80달러로, GPT-5.5의 35달러의 약 6분의 1 수준입니다.

클라우드 비용 급증을 지켜보고 있는 개발자, AI 스타트업, 그리고 기업 팀들에게 GLM-5.2는 그동안 간절히 부족했던 것, 즉 프리미엄을 요구하지 않으면서도 진정으로 경쟁력 있는 오픈 웨이트(open-weight) AI를 의미합니다.

GLM-5.2가 차별화되는 점

GLM-5.2는 Z.ai가 "장기 작업(long-horizon tasks)"이라고 부르는 용도에 맞게 특화되어 제작되었습니다. 이는 데모용 모델과 실제 프로덕션(production)용 모델을 구분 짓는, 수 시간 동안 지속되는 엔지니어링 작업과 같은 종류를 의미합니다. 컴파일러를 처음부터 구축하거나, Linux 커널 모듈을 최적화하거나, 10,000줄의 코드베이스를 디버깅(debugging)하는 것을 생각해 보십시오. 이것들은 단발성 질의응답(Q&A) 문제가 아닙니다. 수천 단계에 걸쳐 일관성과 품질을 유지할 수 있는 모델을 요구합니다.

이 모델은 매우 견고한 100만 토큰 컨텍스트 윈도우(context window)를 제공합니다. 이는 단순한 이론적 최대치가 아니라 실제로 사용 가능한 수준입니다. Z.ai는 대규모 구현, 자동화된 연구, 성능 최적화, 복잡한 디버깅과 같은 실제 코딩 에이전트(coding-agent) 시나리오를 바탕으로 광범위하게 학습했다고 밝혔습니다. 그 결과, 단순히 더 많은 토큰을 수용하는 것에 그치지 않고, 복잡하고 실제적인 엔지니어링 궤적 전반에 걸쳐 품질을 실제로 유지하는 시스템이 탄생했습니다.

아키텍처 측면에서, GLM-5.2는 4개의 희소 어텐션 (Sparse Attention) 레이어마다 하나의 경량 인덱서 (Indexer)를 재사용하는 방식인 IndexShare를 도입했습니다. 1M 컨텍스트 길이에서 이는 토큰당 FLOPs를 2.9배 절감합니다. 또한, 이 모델은 추측적 디코딩 (Speculative Decoding)을 위한 업그레이드된 다중 토큰 예측 (Multi-Token Prediction, MTP) 레이어를 탑재하여 수락 길이 (Acceptance Length)를 최대 20%까지 높였습니다.

벤치마크 세부 분석: GLM-5.2의 승리

Artificial Analysis Intelligence Index v4.1은 이제 GLM-5.2를 51점의 점수로 선두 오픈 웨이트 (Open-weights) 모델로 선정했으며, 이는 MiniMax-M3 (44), DeepSeek V4 Pro (44), Kimi K2.6 (43)을 앞서는 수치입니다. 이 모델은 작업당 비용 대비 지능의 파레토 프런티어 (Pareto frontier)에 위치합니다. 즉, 더 낮은 가격으로 이보다 더 나은 지능을 얻을 수 없음을 의미합니다.

FrontierSWE: 74.4 지배력 점수 — GPT-5.5 (72.6)를 앞섬
SWE-bench Pro: 62.1 — GLM-5.1 (58.4) 및 GPT-5.5 (58.6)를 능가
PostTrainBench: 34.3 — Opus 4.7과 GPT-5.5 모두를 능가
Terminal-Bench 2.1: 81.0 — 80점을 돌파한 최초의 오픈 웨이트 모델
MCP-Atlas (도구 사용): 77.0 — GPT-5.5의 75.3을 앞섬
Design Arena: ELO 1360으로 1위 기록, Claude Fable 5마저 능가
AIME 2026 Math: 99.2 — Opus 4.8과 GPT-5.5 모두를 앞섬

이전 모델인 GLM-5.1 대비 가장 큰 도약은 과학적 추론 (Scientific Reasoning) 분야에서 나타났습니다: CritPt에서 +16점, HLE에서 +12점, Terminal-Bench v2.1에서 +16점을 기록했습니다. 이는 단순한 점진적 개선이 아니라, 역량 면에서 진정한 단계적 변화 (Step change)를 의미합니다.

서로 다른 요구 사항을 위한 두 가지 사고 모드

GLM-5.2는 선택 가능한 추론 노력 (Reasoning effort) 수준을 제공합니다. Max 모드는 작업당 약 85,000개의 출력 토큰 (Output tokens)을 사용하여 정점의 논리적 성능을 밀어붙이며, 이는 어려운 연구 문제나 복잡한 디버깅 (Debugging)에 이상적입니다. High 모드는 성능 저하를 최소화하면서 토큰 수를 절반으로 줄여, 지연 시간 (Latency)이 중요한 일상적인 코딩 작업에 더 적합합니다.

이러한 유연성을 통해 팀은 비용, 속도, 품질 사이에서 자신만의 균형을 선택할 수 있습니다. 이는 폐쇄형 소스 (Closed-source) API 모델들이 투명하게 제공하기 어려운 부분입니다.

MIT 라이선스는 진정한 자유를 의미합니다

사용 제한이나 지역적 차단이 따르는 많은 모델과 달리, GLM-5.2는 Hugging Face에서 MIT 라이선스로 출시되었습니다. 지역적 제한이 없습니다. 사용량 제한도 없습니다. 기업은 가중치 (Weights)를 다운로드하여 미세 조정 (Fine-tune)하거나, 로컬에서 실행하거나, 자체 인프라에 배포할 수 있습니다.

이러한 개방형 접근 방식은 AI를 둘러싼 현재의 지정학적 상황을 고려할 때 특히 중요합니다. 최근 미국의 조치로 인해 Anthropic은 특정 국가의 사용자들에 대해 Claude Fable 5에 대한 접근을 제한해야 했습니다. GLM-5.2의 제한 없는 가용성은 전 세계 어디에서나 팀들이 수출 통제나 라이선스 변경을 걱정하지 않고 이를 기반으로 구축할 수 있음을 의미합니다.

AI 군비 경쟁이 가열되고 있습니다

GLM-5.2는 중대한 시점에 등장했습니다. 중국 AI 연구소들이 대규모 투자 라운드를 진행 중이며 — DeepSeek은 최근 74억 달러를 유치했습니다 — 오픈 웨이트 (Open-weight) 개발에 자본을 쏟아붓고 있습니다. 한편, OpenAI는 잠재적인 1조 달러 규모의 IPO를 앞두고 수십억 달러를 태우고 있으며, 대안 모델들이 확산됨에 따라 ChatGPT의 시장 점유율은 처음으로 50% 미만으로 떨어졌습니다.

오픈 웨이트 생태계는 더 이상 뒤처지지 않습니다. GLM-5.2와 같은 모델들이 주요 벤치마크 (Benchmarks)에서 독점적 모델들과 대등하거나 이를 능가함에 따라, 폐쇄형 AI의 이점은 빠르게 줄어들고 있습니다.

가격 및 가용성

GLM-5.2는 현재 여러 채널을 통해 이용 가능합니다:

직접 API (Direct API): Z.ai의 API를 통해 입력 토큰 100만 개당 $1.40, 출력 토큰 100만 개당 $4.40, 캐시된 토큰 100만 개당 $0.26
GLM 코딩 플랜 (GLM Coding Plan): Lite 티어는 월 $12.60부터 시작하며, 전용 피크 시간대 리소스를 제공하는 Max 티어는 월 최대 $112까지 구성
제3자 제공업체 (Third-party providers): DeepInfra, Novita, Nebius, Fireworks, Baseten 등
자체 호스팅 (Self-hosted): Hugging Face에서 MIT 라이선스 가중치 (weights)를 다운로드하여 자체 하드웨어에서 실행

총 7,440억 개의 파라미터 중 400억 개의 활성 파라미터 (active parameters)를 사용하는 이 모델은 Mixture-of-Experts (MoE) 아키텍처를 사용하여 대규모 환경에서도 추론 비용 (inference costs)을 관리 가능한 수준으로 유지합니다.

개발자에게 이것이 의미하는 바

개발자와 엔지니어링 팀에게 GLM-5.2는 단순한 또 다른 모델 출시 그 이상입니다. 이는 오픈 소스 AI 생태계가 비용의 극히 일부만으로도 프런티어급 (frontier-level) 성능을 제공할 수 있음을 증명합니다. AI 코딩 어시스턴트를 구축하든, 복잡한 엔지니어링 워크플로우를 자동화하든, 혹은 장기적 에이전트 시스템 (long-horizon agentic systems)을 실험하든, GLM-5.2는 값비싼 독점적 기존 모델들에 대한 매력적인 대안을 제시합니다.

MIT 라이선스를 유지하고 월 $12.60부터 시작하는 엔터프라이즈 티어를 제공하기로 한 Z.ai의 결정은 명확한 전략을 시사합니다. 즉, 독점성보다는 가격, 개방성, 그리고 접근성을 바탕으로 경쟁하겠다는 것입니다. Google, Meta 및 기타 기업들도 오픈 모델을 밀어붙이고 있는 시장 상황에서, 이러한 전략은 승기를 잡을 수도 있습니다.

_원문 출처: TekMag