본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 18. 01:29

GLM-5.2, Artificial Analysis에서 지수 51점을 기록하며 오픈 웨이트 모델 선두 차지

요약

Z.ai가 발표한 GLM-5.2가 Artificial Analysis 지수에서 51점을 기록하며 최초로 오픈 웨이트 모델 중 1위를 차지했습니다. 이 모델은 Nvidia GPU 대신 Huawei Ascend 칩을 사용하여 훈련되었으며, MoE 구조를 채택한 7,440억 파라미터 규모의 모델입니다.

핵심 포인트

  • GLM-5.2는 Artificial Analysis 지수에서 오픈 웨이트 모델 최초로 1위 달성
  • 7,440억 파라미터 규모의 MoE 모델로 토큰당 400억 개 파라미터 활성화
  • Nvidia 하드웨어 없이 Huawei Ascend 910B 칩을 사용하여 훈련 성공
  • 100만 토큰의 컨텍스트 윈도우와 MIT 라이선스로 상업적 이용 가능

중국 연구소 Z.ai (이전 Zhipu AI)가 GLM-5.2를 발표했습니다. 이로써 언어 모델의 종합 지능을 측정하는 독립 순위인 Artificial Analysis Intelligence Index에서 오픈 웨이트 (open weights) 모델이 처음으로 1위를 차지했습니다. GLM-5.2는 51점을 기록하며, 기존 오픈 모델 선두였던 MiniMax M3와 DeepSeek V4 Pro (둘 다 44점으로 공동 1위)를 앞질렀으며, 폐쇄형 (closed) 프런티어 모델들과의 격차도 줄였습니다.

가장 많은 화제가 된 데이터는 단순히 수치만이 아닙니다. 이 모델은 Nvidia 하드웨어 없이 전적으로 Huawei Ascend 칩을 사용하여 훈련되었으며, MIT 라이선스로 공개되었습니다. 이는 기술 주권과 오픈 모델과 폐쇄형 모델 사이의 실제 격차가 어디에 있는지에 대한 사례 연구가 됩니다.

요약 (TL;DR)

  • Z.ai의 GLM-5.2는 Artificial Analysis Intelligence Index에서 51점을 달성했으며, 순위 1위를 차지한 최초의 오픈 웨이트 모델입니다.
  • 지수 내 오픈 모델 선두였던 44점의 MiniMax M3 및 DeepSeek V4 Pro를 추월했습니다.
  • 총 7,440억 개의 파라미터(parameters)를 가진 MoE (Mixture of Experts) 모델로, 토큰당 약 400억 개의 활성 파라미터를 사용하며 384개의 전문가(experts)를 보유하고 있습니다.
  • Nvidia GPU 없이 MindSpore를 사용하여 Huawei Ascend 910B 칩 위에서 28.5조 개의 토큰으로 훈련되었습니다.
  • 100만 토큰의 컨텍스트 윈도우 (context window)를 가지며, 상업적 이용이 가능한 MIT 라이선스를 따릅니다.
  • API 가격: 입력 100만 토큰당 1.40 USD, 출력 100만 토큰당 4.40 USD이며, 초당 110~300 토큰의 속도를 제공합니다.
  • 포럼에서는 코드 품질 면에서 Opus 4.7에 근접한 수준으로 평가받지만, '과하게 추론(razona de más)'하며 토큰을 많이 소비한다는 의견이 있습니다.

발생한 상황: GLM-5.2, 오픈 웨이트의 정점에 서다

2026년 6월 13일, Z.ai는 자사의 GLM (General Language Model) 모델 제품군의 새로운 버전인 GLM-5.2를 출시했습니다. 며칠 후, 표준화된 테스트 세트로 모델을 평가하는 독립 기업인 Artificial Analysis는 92개의 비교 가능한 모델 중 GLM-5.2에 51점을 부여하며, 자사의 Intelligence Index 내 오픈 웨이트 (open weights) 모델 중 1위에 올려놓았습니다.

이 차별점은 중요합니다. 오픈 웨이트 (open weights) 모델은 훈련된 파라미터 (parameters)를 공개하여 누구나 이를 다운로드하고, 자신의 인프라에서 실행하며, 제공업체의 API에 의존하지 않고 미세 조정 (fine-tuning)할 수 있도록 합니다. 지금까지 오픈 모델들은 종합 순위에서 폐쇄형 (closed) 모델보다 한 단계 아래에 머물러 있었습니다. GLM-5.2가 해당 지수를 선도한다는 것은 한 단계의 변화를 의미합니다. 즉, 공개 모델의 경계가 많은 이들의 예상보다 더 빠르게 비공개 모델의 경계에 근접했다는 것입니다.

💭 핵심: GLM-5.2가 최고의 폐쇄형 모델들을 능가한다는 뜻은 아닙니다. 중요한 점은 처음으로 오픈 모델 1위가 수학이나 코드와 같은 개별 카테고리뿐만 아니라 일반 지수 (general index)의 정점에 섰다는 사실입니다.

오픈 웨이트 (open weights)를 통해 자체 인프라에서 모델을 실행할 수 있습니다.

GLM-5.2란 무엇이며 어떻게 구축되었는가

GLM-5.2는 총 7,440억 개의 파라미터 (parameters)를 가진 전문가 혼합 (MoE, Mixture of Experts) 모델로, 처리되는 토큰당 약 400억 개의 파라미터만 활성화됩니다. 이 아키텍처 (architecture)는 지식을 384개의 전문화된 전문가 (experts) 사이에 분산시키며, 매 단계마다 _라우터 (router)_라고 불리는 구성 요소가 입력값을 처리할 작은 전문가 하위 집합을 결정합니다. 그 결과: 거대 모델의 능력을 훨씬 더 작은 모델의 연산 비용으로 구현할 수 있게 됩니다.

다음 다이어그램은 MoE 아키텍처를 통해 토큰이 어떻게 흐르는지 요약합니다:

graph LR
  A["입력 토큰"] --> B["라우터 (Router)"]
  B --> C["전문가 1 (Expert 1)"]
...

설계 결정 사항 중 눈에 띄는 점은 GLM-5.1의 200,000 토큰보다 5배 더 큰 100만 토큰의 컨텍스트 윈도우 (Context Window)와, 이처럼 긴 입력을 처리하는 비용을 낮춰주는 희소 어텐션 (Sparse Attention) 기술인 _DeepSeek Sparse Attention_의 사용입니다. 응답당 최대 출력은 131,072 토큰입니다. 현재 이 모델은 텍스트 전용입니다. 멀티모달 (Multimodal) 경쟁 모델들과 비교했을 때 이미지를 처리하지 못한다는 점은 한계로 작습니다.

맥락과 역사: 중국 오픈 모델들의 경주

GLM-5.2는 갑자기 나타난 것이 아닙니다. 2026년 상반기는 중국 오픈 웨이트 (Open Weights) 모델들의 홍수였습니다. 4월 24일 DeepSeek V4 Pro가 등장했고, 6월 1일 MiniMax M3, 6월 12일 Kimi K2.7 Code, 그리고 바로 다음 날 GLM-5.2가 출시되었습니다. 불과 몇 주 만에 오픈 소스의 기준선이 여러 차례 바뀌었습니다.

그 이면의 패턴은 하드웨어에 대한 압박입니다. 하이엔드 GPU 수출 제한으로 인해 중국 연구소들은 자국 실리콘(Silicon) 기반의 학습을 추진해야 했습니다. GLM-5.2는 Nvidia를 거치지 않고 MindSpore 프레임워크를 사용하여 Huawei Ascend 910B 칩 위에서 학습되었습니다. CUDA 생태계 밖에서 학습된 모델이 독립적인 랭킹의 정점에 도달했다는 사실 그 자체로, 단일 컴퓨팅 공급업체에 대한 의존성이 더 이상 절대적이지 않다는 신호입니다.

라이선스 또한 중요합니다. GLM-5.2는 가장 허용적인 라이선스 중 하나인 MIT 라이선스로 공개됩니다. 이는 다른 모델 라이선스의 제한적인 조항 없이 상업적 이용, 수정 및 재배포를 허용합니다. 데이터를 제3자에게 보내지 않고 AI를 배포하고자 하는 기업에게는 '다운로드 가능한 웨이트와 MIT 라이선스'라는 조합이 정확히 필요했던 요소입니다.

데이터와 수치: 측정 방법 및 비용

El Artificial Analysis Intelligence Index는 단일 시험이 아니라 GPQA Diamond (박사 수준의 과학 질문), Humanity's Last Exam, SciCode, GDPval-AA v2, CritPt를 포함한 9가지 테스트의 평균값입니다. GLM-5.2는 이 합산 점수에서 51점을 획득했습니다. 이전의 오픈 웨이트 (Open Weights) 선두주자였던 MiniMax M3와 DeepSeek V4 Pro는 44점으로 동률을 기록했습니다. 최첨단 모델들이 좁은 범위 내에서 움직이는 척도에서 7점의 차이는 매우 주목할 만한 수치입니다.

경제적 측면에서, API 비용은 입력 100만 토큰당 1.40 USD, 출력 100만 토큰당 4.40 USD이며, 캐시 히트 (Cache Hit) 발생 시 81% 할인된 가격(0.26 USD)이 적용됩니다. 보고된 생성 속도는 제공업체와 설정에 따라 초당 110에서 300 토큰 사이이며, 첫 번째 토큰까지의 시간 (Time to First Token)은 약 2.4초입니다.

정액제를 선호하는 사용자를 위해, Z.ai는 세 가지 수준의 GLM Coding Plan을 제공합니다: Lite (월 약 10 USD, 주당 약 400개의 프롬프트), Pro (약 30 USD, 약 2,000개의 프롬프트), Max (약 80 USD, 약 8,000개의 프롬프트)입니다. 이 모델은 Claude Code, Cline, OpenCode, Roo Code, Goose를 포함한 8가지 코드 에이전트 (Code Agents)에 대해 출시 당일 지원을 제공합니다.

⚠️ 주의: 사용자들에 따르면 Max 추론 모드가 '과하게 생각하는' 경향이 있다고 보고되었습니다. GPT-5.5가 약 16,000 토큰을 사용하는 작업에서 최대 45,000 토큰을 소비합니다. High 모드는 품질 저하를 거의 일으키지 않으면서 2~2.5배 적은 토큰을 사용합니다. 따라서 Max를 기본값으로 설정하지 않는 것이 좋습니다.

GLM-5.2는 51점으로 오픈 모델 지수를 선도하고 있습니다.

몇 분 만에 테스트하는 방법

OpenAI 형식과 호환되는 API를 노출함으로써, 기존 코드에 GLM-5.2를 통합하는 것은 매우 직접적입니다. 호환되는 엔드포인트(Endpoint)에 대한 curl 예시는 다음과 같습니다:

curl https://api.z.ai/v1/chat/completions \
  -H "Authorization: Bearer $GLM_API_KEY" \
  -H "Content-Type: application/json" \
...

가중치(weights)가 조직의 HuggingFace 계정을 통해 오픈 소스로 공개되므로, 이 정도 크기의 MoE (Mixture of Experts)를 수용할 수 있는 충분한 GPU 메모리가 있다면 vLLM 또는 SGLang과 같은 추론 엔진(inference engines)을 사용하여 로컬에서 실행할 수도 있습니다. 양자화 (Quantization)를 통해 이러한 요구 사항을 줄일 수 있지만, 커뮤니티에서는 양자화된 버전을 제공하는 공급업체에 따라 품질이 달라질 수 있다고 경고합니다.

영향 및 분석: Opus에 근접했으나 주의사항 존재

Hacker News의 토론에서 여러 사용자는 프로그래밍 작업에 있어 GLM-5.2의 품질을 Opus 4.7 수준으로 평가하고 있으며(일부는 Opus 4.8에 근접한다고 평가함), 훨씬 저렴한 가격이 차이점이라고 언급합니다. 한 문장이 이러한 정서를 요약합니다: '말도 안 되는 가격에 제공되는 Opus 4.7 수준의 품질'. 하지만 이러한 열광에는 몇 가지 주의사항이 따릅니다.

첫 번째는 장황함(verbosity)입니다. 모델이 과도하게 추론(over-reasoning)하는 경향이 있어 토큰 소비를 부풀리며, 이로 인해 이론적 비용 대비 실제 비용이 상승합니다. OpenRouter와 같은 애그리게이터(aggregators)를 통해 사용하는 경우, 추론 설정을 제어하지 않으면 '5달러 상당의 토큰을 매우 빠르게 소진'할 수 있습니다. 두 번째는 시각 기능(vision)의 부재입니다. 텍스트 전용 모델이기 때문에 이미지가 포함된 모든 워크플로우에서 멀티모달 (multimodal) 모델에 뒤처집니다. 세 번째는 벤치마크에 대한 일반적인 회의론입니다. 종합 지수에서 선두를 차지한다고 해서 모든 구체적인 작업에서 최고의 경험을 보장하는 것은 아니며, 최고 수준의 폐쇄형 모델(closed models)과의 격차는 여전히 실재합니다.

이러한 유보적인 입장에도 불구하고 전략적 의미는 명확합니다. 오픈 모델이 폐쇄형 모델보다 무조건 '1~2년 뒤처져 있다'는 서사는 약해지고 있습니다. 커뮤니티는 이제 그 격차를 4개월에서 7개월 정도로 추정하며, 일부는 올해 말 이전에 Fable 5 수준의 오픈 모델이 나올 것으로 예상합니다. 개발자와 기업에게 이는 단일 독점 API에 의존하지 않는 선택이 더 이상 상당한 성능의 포기를 의미하지 않음을 뜻합니다.

다음 단계

GLM-5.2의 등장은 세 가지 전선에서 동시에 압박을 가합니다. 폐쇄형 모델(Closed models)에 대해서는 그들의 가격을 정당화하던 격차를 좁히고, 다른 중국산 오픈 모델들에 대해서는 이미 몇 주 단위로 반복되는 시장에서 기준치를 높이며, 하드웨어 생태계에 대해서는 CUDA 외부에서도 최상위 수준의 모델을 학습시킬 수 있음을 증명합니다. 이는 글로벌 컴퓨팅 공급망에 중요한 시사점을 던집니다.

향후 몇 주간 주목해야 할 사항은 다음과 같습니다: Z.ai가 출시 시점에 상세히 밝히지 않은 SWE-bench 및 LiveCodeBench의 공식 점수 발표, 외부 제공업체들이 서비스하는 양자화(Quantized) 버전의 안정성, 그리고 몇 주마다 새로운 오픈 리더가 등장하는 추세가 지속될지 아니면 식을지 여부입니다. 만약 GLM-5.2가 한 달 이상 그 자리를 유지한다면, 이는 오픈 모델이 일시적인 정점이 아닌 지속적인 형태로 지수(Index)를 선도하는 첫 사례가 될 것입니다.

📖 Telegram 요약: 요약 보기

자주 묻는 질문 (FAQ)

GLM-5.2가 오픈 웨이트 (Open weights) 모델이라는 것은 무엇을 의미하나요?

이는 Z.ai가 모델의 학습된 파라미터(Parameters)를 공개하여, 누구나 외부 API에 의존하지 않고 자신의 인프라에서 다운로드, 실행 및 미세 조정(Fine-tuning)을 할 수 있음을 의미합니다. 또한 MIT 라이선스를 통해 상업적 이용도 허용됩니다.

GLM-5.2가 Opus나 GPT-5.5와 같은 폐쇄형 모델보다 더 나은가요?

절대적인 관점에서는 그렇지 않습니다. 오픈 웨이트 모델 통합 지수에서는 51점으로 선두를 달리고 있지만, 최상위 폐쇄형 프런티어 모델(Frontier models)들은 여전히 앞서 있습니다. 사용자들은 이 모델을 훨씬 저렴한 가격에 코드 품질 면에서 Opus 4.7과 비교하기도 합니다.

Huawei 칩에서 학습되었다는 점이 왜 중요한가요?

Nvidia GPU나 CUDA 생태계 없이도 최상위 수준의 모델을 학습시키는 것이 가능하다는 것을 증명하기 때문입니다. 하드웨어 수출 제한이 있는 상황에서, 이는 단일 컴퓨팅 공급업체에 대한 의존도를 낮춰줍니다.

GLM-5.2를 사용하는 비용은 얼마인가요?

API를 통해 입력 토큰 100만 개당 1.40 USD, 출력 토큰 100만 개당 4.40 USD의 비용이 발생합니다. 또한 월 약 10 USD부터 시작하는 정액제인 GLM Coding Plan도 있습니다. 모델이 추론(reasoning) 과정에서 많은 토큰을 소비하는 경향이 있어 실제 비용은 더 높아질 수 있습니다.

어떤 아키텍처를 사용하나요?

총 7,440억 개의 파라미터(parameters), 토큰당 약 400억 개의 활성 파라미터, 그리고 384개의 전문가를 가진 MoE (Mixture of Experts, 전문가 혼합) 구조입니다. 100만 토큰의 컨텍스트(context) 길이를 지원하며, 현재는 텍스트만 처리할 수 있습니다.

이전 오픈 랭킹의 선두 모델은 무엇이었나요?

Artificial Analysis Intelligence Index에서 44점으로 동률을 기록했던 MiniMax M3와 DeepSeek V4 Pro였습니다. GLM-5.2는 51점을 기록하며 이들을 앞질렀습니다.

참고 문헌

📱 이 콘텐츠가 마음에 드시나요? 기술, AI 및 개발 분야의 가장 중요한 소식을 매일 게시하는 저희 Telegram 채널 @programacion에 참여하세요. 빠른 요약과 매일 새로운 콘텐츠를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0