오픈 웨이트 GLM-5.2, 코딩에서 GPT-5.5를 일부 능가

요약

Z.ai가 공개한 오픈 웨이트 모델 GLM-5.2는 IndexShare 메커니즘을 통해 1M 토큰의 장문맥을 효율적으로 처리합니다. SWE-bench Pro 등 코딩 벤치마크에서 GPT-5.5를 상회하는 성능을 보이며, 프론티어 모델에 육박하는 오픈 웨이트 모델로 평가받습니다.

핵심 포인트

IndexShare 메커니즘으로 1M 문맥 처리 시 연산 비용 대폭 절감
750B 파라미터 규모의 Sparse MoE 구조 (Active 40B)
SWE-bench Pro에서 GPT-5.5를 능가하는 코딩 성능 입증
MIT 라이선스로 가중치 공개 및 OpenAI 호환 API 지원

「오픈 웨이트(Open-weight)가 GPT-5.5를 넘어섰다」는 헤드라인을 이번 주에 여러 개 보았지만, Z.ai가 공개한 GLM-5.2를 실제로 다루는 쪽의 관심사는 그곳이 아니다. 가중치(Weights)가 MIT 라이선스로 배포되며, 게다가 광고 문구가 아니라 공식 기술 블로그에 실린 1M 토큰의 문맥(Context)이 「실용적인 구조」로 되어 있다는 점, 이 두 가지가 훨씬 더 중요하다. 벤치마크의 일부 승리는 화려하지만, 현장의 판단 재료로서는 설계와 라이선스의 내용을 읽어야 한다.

Artificial Analysis의 집계에 따르면, GLM-5.2는 Intelligence Index v4.1에서 51을 기록하며 오픈 웨이트 중 톱에 올라섰다 (MiniMax-M3와 DeepSeek V4 Pro는 44).

GLM-5.2의 아키텍처(Architecture)상의 핵심은, 이전 세대에서 200K였던 문맥 창(Context Window)을 1M까지 확장한 것 그 자체보다, 그것을 성립시키는 IndexShare라는 메커니즘에 있다.

희소 어텐션(Sparse Attention)에서는 각 층이 「어떤 토큰을 볼 것인가」를 선택하는 인덱서(Indexer)의 내적(Dot product)과 topk 계산이 비용이 된다. 공식 블로그의 설명에 따르면, 4개 층마다 하나의 경량 인덱서를 선두 층에 배치하고, 거기서 선택한 topk 인덱스를 후속 4개 층에서 재사용한다. 결과적으로 4개 층 중 3개 층분의 인덱서 계산이 사라진다.

GLM-5.2 is trained with IndexShare from mid-training with 128K sequence length, outperforming GLM-5.1 on long-context benchmarks with less computation.

공개 수치로는 1M 문맥 시의 토큰당 FLOPs가 2.9배 가벼워진다고 한다 (기술 블로그). 장문맥은 「지원합니다」라고 쓰는 것은 쉽지만, 추론 비용이 선형 이상으로 불어나 아무도 사용할 수 없는 것이 지금까지의 정석이었다. 중간 학습(Mid-training) 단계부터 128K 시퀀스(Sequence)로 이 구조를 심어둔 점을 보면, 사후에 늘린 것이 아니라 장문맥을 전제로 다시 설계했다고 읽을 수 있다. 리포지토리(Repository)의 가중치는 합계 1.51TB이며, 총 파라미터(Parameter)는 약 750B (Artificial Analysis의 측정치로 744B), 액티브(Active)는 40B의 희소 MoE(Sparse MoE)다.

VentureBeat 등의 「GPT-5.5를 1/6의 비용으로 능가한다」는 표현은 벤치마크를 선택하면 사실이지만, 선택하지 않으면 과장이다. 공식 블로그의 숫자를 나열하면 잘하는 점과 못하는 점이 명확히 드러난다.

벤치마크	GLM-5.2	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	62.1	58.6	69.2
...

SWE-bench Pro에서는 GPT-5.5를 명확히 상회하는 반면, Terminal Bench와 GPQA에서는 양쪽 모두에 미치지 못한다. Claude Opus 4.8에는 주요 코딩 계열에서 전반적으로 차이를 보이고 있다. 즉 「프론티어(Frontier)에 육박한 오픈 웨이트」이지 「프론티어 초월」은 아니다. 나의 해석으로는 에이전트적인 다단계 코딩(SWE 계열)에 맞춰 튜닝(Tuning)되었고, 단발적인 난제 추론(GPQA 등)은 뒷전인 성격으로 정의된다. AIME 2026의 99.2는 보기 좋지만, 수학은 포화 상태인 지표이므로 과대평가하지 않는 것이 좋다.

OpenRouter를 경유하면 OpenAI 호환 방식으로 호출할 수 있다. 슬러그(Slug)는 z-ai/glm-5.2이며, 문맥은 1M이 통한다.

curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
...

Z.ai 공식 API의 단가는 입력 $1.40 / 출력 $4.40 (둘 다 100만 토큰당), 캐시 히트(Cache hit)는 $0.26이다. 추론 강도는 high와 max의 2단계로 전환할 수 있으며, Claude Code나 ZCode, OpenCode에서 사용할 경우에는 1M 문맥 버전에 GLM-5.2[1m]라는 모델 ID가 할당되어 있다. 레이턴시(Latency)와 정밀도를 effort로 조절할 수 있는 점은, CI에서 돌리는 자동 수정과 대화형 리뷰를 동일한 모델로 구분하여 사용하고 싶을 때 유용한 설계다.

실무에서의 타협점은 명확하다. MIT 라이선스로 가중치(weights)를 얻을 수 있기 때문에, 코드나 독자적인 사양을 외부 API로 보낼 수 없는 환경에서는 셀프 호스팅(self-hosting)의 제1 후보가 된다. 반면, 최고 정밀도가 필요한 에이전트(agent)라면 현재로서는 Opus 4.8이 우세하며, GLM-5.2는 비용과 데이터 주권(data sovereignty)을 확보하기 위한 카드다. [1m]

리포지토리(repository) 전체를 한 번에 읽게 하는 방식은 IndexShare의 비용 구조가 뒷받침되어야 비로소 현실적이 된다. 긴 문맥(long context) 벤치마크 순위보다, 이 "넓은 창(window)을 합리적인 가격으로 돌릴 수 있는가"가 반년 뒤에 차이를 만드는 핵심 요소가 될 것으로 본다.

참고: GLM-5.2 모델 카드 (Hugging Face) / Z.ai 공식 발표 (X) / 이전 세대 GLM-5.1 설계 블로그

AI 자동 생성 콘텐츠

원문 바로가기

오픈 웨이트 GLM-5.2, 코딩에서 GPT-5.5를 일부 능가

요약

핵심 포인트

댓글