Zhipu의 GLM 5.2, Elo 1,360점으로 Design Arena HTML 부문 1위 차지 — 제한된 성능의 Claude Fable - Insights | Molayo

Zhipu AI의 7,530억 파라미터(parameter) 오픈 웨이트(open-weight) 모델인 GLM 5.2가 Elo 점수 1,360점을 기록하며 Design Arena HTML 벤치마크에서 1위를 차지했으며, Anthropic의 Claude Fable 5(1,350점)를 근소하게 앞질렀습니다. 이 승리는 상무부의 수출 통제 명령으로 인해 Fable 5가 미국 외 사용자들로부터 차단된 시점과 GLM 5.2의 API 가격 책정 시점이 맞물려 발생했습니다.

Z.ai의 오픈 웨이트 모델인 GLM 5.2는 2026년 6월 20일, Claude Fable 5의 1,350점에 맞서 1,360점의 Elo 점수를 기록하며 Design Arena HTML 리더보드 최상단에 올랐습니다. 10점의 Elo 차이는 통계학적 관점에서는 미미하지만, 중국의 AI 분야에는 상징적으로 매우 중요한 의미를 갖습니다.

YC S25 기업인 Arcada Labs가 구축하고 Harvard 동문인 Grace Li, Kamryn Ohly, Jayden Personnat가 설립한 이 벤치마크는 블라인드 크라우드소싱(crowdsourced) 투표를 기반으로 하는 Bradley-Terry 레이팅 시스템을 사용합니다. 인간 평가자들은 HTML 생성, UI 컴포넌트 디자인, 서드파티 라이브러리(third-party library) 통합을 포함한 카테고리에서 두 개의 익명 모델 출력을 나란히 비교합니다. 이 플랫폼은 출시 첫 달에 47,000명의 사용자를 유치했으며, 학술적 추론보다는 기능적이고 배포 가능한 코드를 테스트하기 때문에 더욱 엄격한 응용 디자인 평가 중 하나로 간주됩니다.

GLM 5.2는 이전 모델인 GLM 5.1보다 5계단 상승하여 1위에 도달했습니다. 별도의 프론트엔드 중심 Code Arena 리더보드에서는 Elo 1,595점으로 Fable 5(1,654점)에 이어 2위에 머물러 있으며, 이는 이번 선두 유지가 범주적이기보다는 특정 벤치마크에 국한된 것임을 시사합니다.

규제적 배경이 이 순간을 증폭시키다

Anthropic의 Fable 5는 온전한 성능으로 경쟁하고 있지 않습니다. 2026년 6월 12~13일, Howard Lutnick 상무장관은 비상 국가 안보 조항을 발동하여 Anthropic 측에 미국 내 비시민권자 직원을 포함한 전 세계 모든 외국인에 대해 Fable 5와 Mythos 5에 대한 접근을 중단하도록 지시했습니다. Anthropic은 준수를 보장하기 위해 전체 사용자 기반에 대해 두 모델을 비활성화했으며, 이는 미국 정부가 수출 통제를 통해 상용 AI 모델을 소급하여 금지한 첫 사례입니다.

정부가 밝힌 우려 사항은 Fable 5의 안전 가드레일 (safety guardrails)을 우회하는 방법이 드러났다는 것이었으나, 상무부 (Commerce Department)는 기술적인 세부 사항을 공개하지 않았습니다. 100명 이상의 보안 연구원들이 해당 명령의 철회를 공개적으로 촉구했습니다. Anthropic은 해당 지침이 잘못되었다고 믿으면서도 규정을 준수하겠다고 밝혔습니다.

Z.ai에게 이번 타이밍은 운이 좋습니다. GLM 5.2는 금지 조치가 내려지기 며칠 전에 출시되었으며, 이와 유사한 제한을 받지 않습니다. 이 모델의 가중치 (weights)는 MIT 라이선스로 제공되며 Hugging Face에서 이용 가능하고, vLLM, SGLang 및 호환 가능한 추론 프레임워크 (inference frameworks)를 통해 로컬에서 실행할 수 있습니다. 즉, 지역적 차단이나 API 의존성이 없습니다.

비용 격차는 미미하지 않다

Z.ai 및 제3자 엔드포인트 (endpoints)에서 GLM 5.2의 API 가격은 입력 토큰 100만 개당 $1.40, 출력 토큰 100만 개당 $4.40로 책정되어 있습니다. Anthropic의 현재 사용 가능한 최상위 계층인 Claude Opus 4.8은 입력 100만 개당 $5.00, 출력 100만 개당 $25.00입니다. GPT-5.5는 입력 $5.00, 출력 $30.00 수준입니다.

코드베이스를 읽거나 diff를 작성하는 것과 같이 출력이 많은 에이전트 워크로드 (agent workload)에서는 그 차이가 빠르게 누적됩니다. 매달 1억 개의 입력 토큰과 2,000만 개의 출력 토큰을 사용하는 팀의 경우, GLM 5.2 요율로는 약 $228를 지불하지만 Opus 4.8 요율로는 $1,000를 지불해야 합니다. 핵심 사용 사례가 HTML 및 UI 생성인 개발자들에게 이 계산은 GLM 5.2의 벤치마크 우위와 대립하는 요소가 아니라, 이를 뒷받침하는 요소로 작용합니다.

2025년에 Z.ai로 리브랜딩된 Zhipu는 역사적으로 미국 경쟁사들에 맞서 공격적인 가격 정책을 펼쳐왔습니다. 이 회사는 Alibaba, Tencent 및 국가 연계 투자자들의 지원을 받고 있으며, DeepSeek과 Qwen이 설정한 패턴을 따르는 오픈 웨이트 (open-weights) 전략을 통해 라이선스 수익을 포기하는 대신 채택률과 개발자 신뢰를 얻고 있습니다.

헤드라인 수치의 한계

Design Arena에서 GLM 5.2와 Fable 5 사이의 10점 차이인 Elo 격차는 크라우드소싱 (crowdsourced) 리더보드에서 발생하는 노이즈 범위 내에 있습니다. 이 정도의 근소한 차이에서는 수백 개의 투표만 추가되어도 순위가 바뀔 수 있습니다. 더 장기적인 관점의 소프트웨어 엔지니어링 (software engineering) 작업에서는 Fable 5와 Opus 4.8이 상당한 우위를 유지하고 있습니다. 가용한 벤치마크 (benchmarks)에 따르면, NL2Repo 점수는 Fable 5가 69.7점인 반면 GLM 5.2는 48.9점이며, SWE-Marathon은 Fable 5가 26.0점, GLM 5.2가 13.0점입니다.

Design Arena 자체는 보안, 다국어 능력 (multilingual capability), 또는 탈옥 저항성 (jailbreak resistance)을 측정하지 않으며, 이 영역들은 서구권의 프런티어 모델 (frontier models)들이 역사적으로 집중적으로 투자해 온 분야입니다. 또한 이 벤치마크의 블라인드 투표 (blind-vote) 방법론은 인간 평가자가 코드의 정확성 (code correctness)을 평가하는지 아니면 시각적 미학 (visual aesthetics)을 평가하는지 구분할 수 없는데, HTML 생성 작업에서는 이 두 요소가 크게 다를 수 있습니다.

GLM 5.2가 입증한 것은 미국의 규제 범위 밖에서 출시된 7,530억 개의 파라미터 (parameters)를 가진 오픈 웨이트 (open-weight) 모델이, 훨씬 적은 비용으로 응용 디자인 벤치마크에서 폐쇄형 프런티어 모델 (closed frontier models)과 대등하거나 이를 능가할 수 있다는 점입니다. 이는 단일 Elo 점수보다 더 지속적인 의미를 갖는 발견입니다.

주요 사실 (Key facts)

GLM 5.2 Design Arena HTML Elo: 1,360 (1위)
Claude Fable 5 Elo: 1,350 (2위)
GLM 5.2 파라미터: 7,530억 개, MIT 라이선스 오픈 웨이트 (open weights)
GLM 5.2 API 출력 가격: $4.40/M tokens vs. Claude Opus 4.8 $25.00/M
Fable 5 액세스: 6월 12일~13일 미국 상무부 (US Commerce Department)의 수출 통제 (export control)로 인해 중단
Design Arena: YC S25 기업, Bradley-Terry 크라우드소싱 방법론, 초기 사용자 47,000명

주시할 점: 미국 상무부가 Fable 5에 대한 수출 통제를 해제하거나 완화할지 여부가 Anthropic이 Design Arena 리더보드에서 직접 순위를 탈환할 수 있을지를 결정할 것입니다. 또한 투표량이 안정화됨에 따라 향후 2~4주 동안의 GLM 5.2 Elo 궤적을 지켜봐야 합니다. 10점의 Elo 차이는 모델 업데이트 없이도 순위가 뒤바뀔 수 있을 만큼 매우 근소합니다.

출처: pandaily, techcrunch_ai, wired_ai, hacker_news_top

_원문은 gentic.news에서 처음 게시되었습니다.

Zhipu의 GLM 5.2, Elo 1,360점으로 Design Arena HTML 부문 1위 차지 — 제한된 성능의 Claude Fable

요약

핵심 포인트

규제적 배경이 이 순간을 증폭시키다

비용 격차는 미미하지 않다

헤드라인 수치의 한계

댓글