본문으로 건너뛰기

© 2026 Molayo

HN분석2026. 06. 25. 09:21

GLM-5.2는 오픈 에이전트(Open Agents)를 위한 비약적 변화입니다

요약

Z.ai가 출시한 GLM-5.2 모델은 오픈 웨이트 모델로서 에이전트 성능의 임계값을 돌파했습니다. Arena 에이전트 리더보드에서 OpenAI 및 Anthropic의 최신 모델과 대등한 성능을 보이며 오픈 소스 생태계의 강력한 대안으로 부상했습니다.

핵심 포인트

  • GLM-5.2는 오픈 웨이트 모델 중 드물게 최상위 에이전트 성능을 입증함
  • Arena 에이전트 리더보드에서 주요 폐쇄형 모델들과 어깨를 나란히 함
  • 강화학습(RL) 프레임워크 SLIME를 활용한 기술적 진보를 보여줌
  • 최대 사고 노력(Max thinking effort) 모드를 통해 높은 추론 능력을 제공함

GLM-5.2는 오픈 에이전트(Open Agents)를 위한 비약적 변화입니다

제가 주의 깊게 모니터링해 온 역량 임계값(Capability threshold)입니다.

공지사항: 지난주 유료 기능의 약간의 증가를 언급한 "블로그 현황(State of the blog)" 포스트에 이어, 좌석 수에 비례하여 더 큰 할인을 제공하는 그룹 구독을 제공하고 있음을 알려드립니다.

또한 저는 오늘 터미널 에이전트(Terminal agents)를 위한 오픈 강화학습 (RL) 레시피에 관한 새로운 논문을 발표했습니다. 자세한 내용은 여기서 읽어보세요.

AI 업계가 Claude Fable 5의 충격적인 수출 제한 및 사실상의 금지 조치로 여전히 술렁이고 있던 약 일주일 전, Z.ai는 최신 모델인 GLM-5.2를 출시했습니다. 이 모델은 이례적으로 6월 13일 토요일에 GLM Coding Plan 회원들에게 배포되었습니다. 이는 특이한 출시 관행입니다. 보통 AI 모델이 주말에 출시될 때는 기묘한 이유가 있기 때문입니다 (가장 유명한 사례는 Llama 4입니다).1 이 경우, Z.ai는 AI 연구자들에 대한 Anthropic의 침묵하는 안전장치(Silent safeguards)를 통해 "Anthropic이 오픈 사이언스(Open-science)에 반대한다"는 시대적 흐름을 활용하고 싶어 하는 것처럼 보였습니다. 지난 1~2년 동안 중국의 오픈 웨이트 (Open-weight) 연구소들은 이러한 쉬운 마케팅 승리를 얻기 위해 가능한 모든 기회를 잡아왔습니다.

업계의 일반적인 명명 규칙에 따라, GLM-5.2는 인기 있는 GLM-5.1 모델을 잇는 점진적인 업데이트처럼 보였습니다. 이 시점에서 Kimi 모델의 제작자인 Moonshot AI와 GLM 모델의 제작자인 Z.ai는 AI 연구자들 사이에서 가장 사랑받는 오픈 웨이트 (Open-weight) 모델들을 통해 평판 시장의 정점을 공고히 했습니다. 이후 전개된 상황은 AI 모델을 추적할 때 흔히 겪는 교훈을 보여줍니다. 즉, 사소한 버전 번호 변화가 AI 모델이 의미 있는 사용자 경험 임계값을 넘어서게 할 수 있다는 점입니다. 벤치마크와 훈련의 작은 변화가 광범위한 새로운 유스케이스 (Use-cases)를 열 수 있습니다.

그 이후로 GLM-5.2에 대한 기대감이 서서히, 그러나 거세게 일기 시작했습니다. 공식적인 MIT 라이선스 모델 가중치(Model weights)와 릴리스 블로그는 최초 출시 3일 후인 6월 16일에 공개되었습니다. 높은 벤치마크 점수, Z.ai가 사용하는 매우 인기 있는 강화학습 (RL) 프레임워크 (SLIME), 모델을 항상 최대 사고 노력 (Max thinking effort) 모드로 사용할 것을 권장하는 점 등 수많은 기술적 세부 사항을 늘어놓을 수도 있겠지만, 보통 초기 릴리스 블로그 자체에 집중할 필요는 없습니다. 이것이 정말 실체가 있는 것인지 알기 위해서는 생태계의 반응을 기다렸다가 읽어보면 됩니다. 어쨌든 요즘 벤치마크는 반쯤 의미가 없으니까요.

16일 이후로 이어진 것은 GLM-5.2가 기대 이상의 결과를 보여준다는 수많은 커뮤니티 벤치마크였습니다. Arena의 에이전트 리더보드(Agent leaderboard)에서 GLM-5.2는 OpenAI 및 Anthropic의 최신 모델들과 어깨를 나란히 하는 유일한 오픈 모델로 이름을 올렸습니다 (특히 Opus 4.8의 사고 노력 없음(no-thinking effort) 모드가 GLM-5.2의 최대(max) 모드와 대등한 수준을 보였습니다). 이는 GLM-5.2가 Gemini를 압도하고 있는 수많은 평가 (Evals) 중 하나이지만, 이는 다음에 다룰 주제입니다. 커뮤니티(특히 실제 설계자들 사이)에서 평가가 엇갈리는 벤치마크인 Design Arena에서는 GLM-5.2가 최근 금지된 하이프 머신 (Hype machine)인 Claude Fable조차 능가하기도 했습니다!

AI 논평가와 연구자 계층 중 제가 존경하는 거의 모든 이들이 모델을 직접 사용해 본 후 찬사를 보냈습니다. 오픈 모델 출시 이후 커뮤니티에서 이토록 명확한 논의의 중심이 된 적은 DeepSeek R1 이후 단 한 번뿐이었습니다. 이는 제가 가볍게 하는 비교가 아니며, Kimi K2의 출시를 “DeepSeek 모멘트 (DeepSeek Moment)”에 비유했을 때, GLM-5.2는 그 수준을 훨씬 뛰어넘었습니다. Kimi K2가 인상적이었던 이유는 오픈 모델 성능의 큰 도약이 중국의 어디에서든 나올 수 있다는 것을 보여주었기 때문입니다. 반면 GLM-5.2가 내디딘 발걸음은 AI 발전의 방향을 결정짓는 일방통행 문 (One way door)에 더 가깝습니다.

Claude Code를 등에 업은 Anthropic의 기록적인 매출 성장률은 최고의 모델, 그리고 진정으로 이를 수행할 수 있는 유일한 모델이라는 점에 크게 기인합니다. GLM-5.2는 신뢰할 수 있는 대안을 제공하는 수많은 (곧 출시될) 오픈 웨이트 (open weight) 모델 중 첫 번째입니다. DeepSeek R1이 훨씬 적은 자원을 가진 오픈 웨이트 연구소들도 OpenAI가 o1을 통해 주창했던 사고 사슬 (chain-of-thought) 추론 모델을 복제할 수 있음을 보여주었을 때와 매우 유사한 평행 이론이 성립합니다. 도구, 통합 하네스 (integrated harnesses), 그리고 확장된 모델 웨이트 (scaled model weights)와 함께 AI 시스템이 점점 더 복잡해지고 구축 비용이 훨씬 더 비싸짐에 따라, 이러한 GLM-5.2의 순간이 과연 일어날 것인지는 전혀 보장된 일이 아니었습니다.

핵심은 GLM-5.2가 범용 에이전트 (general agent)로서 코딩 하네스 (coding harnesses) 내에서 적절하다고 느껴지는 오픈 웨이트 모델이라는 점입니다. 그것은 첫 번째 모델입니다. 개인적으로 Kimi K2.7 또는 GLM-5.1과 같은 최근의 동급 모델들을 시도해 보는 것이 늦었지만, 그 열기는 무시하기에는 너무나 컸습니다. 저는 Claude Code 내에서 Fireworks의 API를 사용하여 (이 설정은 매우 쉬웠습니다) 제 사후 학습 (post-training) 코스용 콘텐츠를 만드는 데 이 모델을 활용해 보았습니다. Claude Code 하네스 / 제 리포지토리 (repo) 문서가 모델에 이미지를 보내려고 시도하여 세션 동안 Fireworks API를 먹통으로 만들고 수동으로 컨텍스트를 지워야 했던 것과 같은 사소한 문제들이 있었습니다. 전반적으로 모델의 역량은 즉각적으로 적절하다고 느껴졌으며, 어떤 하네스와 추론 제공자 (inference provider)를 사용할지에 대해서는 여전히 약간의 조율이 필요합니다.

더 많은 열기를 확인하고 싶다면, Z.ai의 창립자가 Elon에게 “오픈 웨이트 Fable 역량이 2027년 1분기보다 더 빨리 도래할 것”이라고 말하는 장면, Vercel의 CEO가 “@zai_org의 GLM-5.2가 코딩을 얼마나 잘하는지 진심으로 감명받았고 거의 충격적이기까지 하다. 이것은 판도를 바꾼다”라고 말하는 장면 등, 제가 깊이 존경하는 사람들과 제가 새로 알게 된 사람들로부터 나오는 다양한 의견들을 살펴볼 수 있습니다.

자, 이것은 좋은 모델입니다. 그렇다면 이것은 우리를 어디로 이끌까요?

여러 가지 트렌드가 작용하고 있습니다. 우선, 오픈 모델과 폐쇄형 모델(closed models) 간의 역량 격차를 바탕으로 논의를 시작해 보겠습니다. 저는 오픈 모델이 Claude Code의 Opus 4.5 임계값을 넘어서게 된다면, 2026년 초쯤부터 "사용량의 폭발(explosion in usage)"이 일어날 것이라고 작성한 바 있습니다. 그리고 지금 우리는 그 지점에 와 있습니다. 2025년 11월 24일 Claude Opus 4.5의 출시와 2026년 6월 16일 GLM-5.2의 출시 사이의 간격은 204일, 즉 약 6.8개월입니다. 이는 많은 이들이 미국의 폐쇄형 연구소(closed labs)와 중국의 오픈 모델 대응군 사이의 성능 격차라고 주장하는 6~9개월의 시간 간격에 정확히 들어맞습니다.

이 글을 쓰면서 저는 놀랐습니다. 지난 약 1년 동안 미국의 연구소들이 컴퓨팅 자원(compute)을 매우 빠르게 확충해 왔기 때문에, 저는 성능 격차가 시간이 지남에 따라 더 벌어질 것이라고 예상했었습니다. 이 궤적에서 매우 의미 있는 단계는 Claude Fable 5의 출시가 될 것입니다. 이 모델은 Claude Opus 모델들에 비해 규모(scale)에 더 의존하며, 따라서 가장 진보된 GPU를 필요로 합니다. 하지만 이것만으로는 충분한 답이 되지 않습니다. 여기서의 궤적을 계속해서 파헤치는 것은 안내용 기사에 담기에는 너무나 많은 미묘한 차이(nuance)를 포함합니다.

이것이 갖는 가장 즉각적인 의미는 토큰 극대화(tokenmaxxing)를 추구하는 조직들 내에서 훨씬 더 심각한 가격 압박이 발생하여, Anthropic의 매출을 천문학적으로 높일 것이라는 점입니다. 어떤 이들은 Anthropic이 예측된 연간 반복 매출(ARR) 수치를 달성하지 못할 것이라고 예측하기도 하지만, 저는 그것이 이러한 모델들에 대한 진정한 수요와 필연적인 성장을 반영한 가격이라고 생각하지 않습니다. 이러한 모델의 존재는 오픈 모델 *경제(economy)*에 엄청난 혜택입니다. Fireworks, Together, Thinky (Tinker을 통해), Prime Intellect, 그리고 오픈 모델 추론(inference)이나 미세 조정(finetuning)을 판매하는 그 누구라도 방금 또 다른 변곡점에 도달했습니다.

이곳의 효과가 더 넓은 경제(및 유스케이스(use-cases))로 확산되기까지는 오랜 시간이 걸릴 것입니다. 워크플로우(Workflows)는 더욱 복잡해지고 있으며, 사람들은 계획(planning), 주요 코딩(primary coding), 그리고 서브 에이전트 파견(subagent dispatch)을 위해 서로 다른 모델을 사용하고 있습니다. 저는 이 열풍(hype)이 계속해서 커질 것으로 예상하며, 심지어 제가 일요일 저녁에 이 글을 쓰고 있는 지금도, 월요일에 나타날 미디어와 시장의 반응이 DeepSeek R1 출시 때와 마찬가지로 벌어질 수 있다고 봅니다. Anthropic의, 그리고 더 나아가 미국의 플래그십 모델이 여전히 금지된 상태에서 이러한 확산이 일어난다는 것은 심각한 경제적 비수(economic dagger)입니다. GLM-5.2는 프런티어 랩(frontier labs)들이 오직 절대적인 프런티어 모델(frontier models)에 의해서만 가능한 고마진, 고수익 영역으로 밀고 나가려 할 때, 그들의 경제적 기반(economic underbelly)을 잠식할 시간을 벌고 있습니다.

이러한 경제적 우려는 AI 분야에서 여러 차례 반복되어 온 이야기이기에, 이것이 언제쯤 정착될지는 불분명합니다.

AI의 궤적에 있어 더 핵심적으로 느껴지는 대화는 오픈 모델(open models)의 규제와 통제에 관한 것입니다. 저는 저렴한 지능이 널리 확산되는 것이 경제적 이득이라고 생각하며, 우리의 기본 입장은 오픈 모델을 응원하는 것이어야 합니다. 하지만 이 모델의 출시일은 AI 권력 구조의 정신적 지도(mental map)에서 Claude Fable — 결과적으로 Claude Mythos —와 영구적으로 연관되게 만들 것입니다. 우리는 Mythos급 모델의 역량이 미국 정부에 의해 출시하기에 안전하지 않다고 간주되는 시점에 와 있으며, 중국의 모델 제작자들은 모두가 사용할 수 있는 역량을 향해 거침없이 나아가고 있습니다.

GLM-5.2의 사이버 성능이 이전 모델들과 비교해 어떠한지는 알 수 없기에 이러한 추세선들이 반드시 인과관계로 연결되어 있다고 볼 수는 없지만, 역량(capabilities)은 확실히 상관관계가 있습니다. 아무것도 변하지 않는다면, 이는 미국 정부가 특정 중국산 오픈 웨이트(open-weights) 모델이 대중에게 안전하지 않다고 결정하게 될 잠재적 가능성을 시사합니다. 여기에는 다른 많은 잠재적 시나리오도 존재하지만, 분명한 것은 우리가 이를 지도화(mapping)하고, 인프라를 준비하며, 사회에 메시지를 전달하는 데 있어 많은 과제를 안고 있다는 점입니다.

점점 더 유능해지는 오픈 모델 (open models)을 어떻게 관리할 것인지에 대해 의사 결정권자들에게 세상을 상상하고 전달하기 위해서는 저 혼자만이 아닌 훨씬 더 많은 사람이 필요할 것입니다.2 Nvidia의 차세대 칩이 이미 생산 중이고 알고리즘의 발전이 끊임없이 이어지고 있는 상황에서, 우리는 앞으로 수년간 더 많은 AI 발전을 목격하게 될 것입니다. 오픈 모델 지지자들이 걸어가야 할 길은 매우 좁게 느껴지지만, 우리는 성능의 거대한 도약이 폐쇄형 모델 (closed models)에만 국한되지 않도록 오픈 모델을 어떻게 실행 가능하게 만들지 방법을 찾아내야 합니다.

누구나 접근 가능한 Mythos 급 모델을 상상하는 것이 왜 무서운 일인지 충분히 이해하지만, 만약 지금 오픈 모델이 금지되고 2년 뒤에 한두 기업의 손에 쥐어진 폐쇄형 모델만이 10배 또는 100배 더 좋아진다면, 우리는 훨씬 더 큰 문제에 직면하게 될 것이라고 생각합니다.

저에게 항상 눈에 띄었던 점은 중국 연구소들이 모델을 출시하는 속도입니다. 저는 여러 연구소로부터 모델 학습이 완료된 후 HuggingFace에 가중치 (weights)를 공개적으로 업로드하기까지 걸리는 시간이 며칠이 아니라 몇 시간 단위로 측정될 수 있다는 이야기를 들었습니다. 모델을 더 넓은 추론 (inference) 시장에 서비스하기 위한 준비가 필요해진 지금은 이 속도가 다소 느려지긴 했습니다.

더 많이 논의되어야 할 점은 Mythos 프리뷰와 같은 폐쇄형 모델조차도 정기적으로 권한이 없는 사용자들의 손에 들어가거나 탈옥 (jailbroken)된다는 사실입니다. 따라서 접근성에 있어서 오픈 대 폐쇄의 이분법은 완전히 흑백 논리로 나눌 수 있는 문제가 아닙니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0