GLM-5.2, Snowflake 코딩 테스트에서 Opus 4.7과 대등한 성능을 1/5 가격으로 달성

Zhipu AI의 GLM-5.2가 Snowflake 코딩 벤치마크에서 Claude Opus 4.7과 대등한 성능을 보여주었으며, 비용은 5분의 1 수준으로 서구권 AI 연구소의 가격 정책과 IPO 기업 가치에 위협이 되고 있습니다.

Zhipu AI의 GLM-5.2는 Snowflake 벤치마크의 103개 코딩 작업 중 66%를 해결하며, 출력 토큰(output token) 비용이 5분의 1인 상황에서 Opus의 67%와 대등한 성적을 거두었습니다. 이 중국 모델의 가격은 출력 토큰 100만 개당 4.40달러로, Opus의 25달러와 비교했을 때 Anthropic과 OpenAI의 주력 코딩 활용 사례에 직접적인 압박을 가합니다.

주요 사실 (Key facts)

GLM-5.2는 103개 코딩 작업 중 66%를 해결했으며, Opus 4.7은 67%를 해결했습니다.
GLM의 비용은 출력 토큰 100만 개당 4.40달러이며, Opus의 비용은 25달러입니다.
첫 시도 정확도 (First-attempt accuracy): Opus 53.7%, GLM 47.6%.
GLM은 860M 토큰을 사용한 반면, Opus는 439M 토큰을 사용했습니다.
GLM은 작업당 평균 99회의 반복 (iterations)을 수행한 반면, Opus는 80회를 수행했습니다.

Snowflake의 CEO Sridhar Ramaswamy는 월요일, DuckDB와 Snowflake 모두에서 작동하는 코드가 필요한 103개 코딩 작업을 대상으로 GLM-5.2와 Claude Opus 4.7을 비교한 실무 테스트 결과를 발표했습니다. 작업당 3번의 시도를 허용했을 때, 두 모델은 거의 대등했습니다: GLM-5.2는 66%, Opus 4.7은 67%의 해결률을 기록했습니다 The Decoder에 따르면.

첫 시도 정확도 (First-attempt accuracy)는 다른 양상을 보여줍니다. Opus는 53.7%를 기록한 반면 GLM은 47.6%를 기록했는데, 이 6.1포인트의 격차는 GLM의 출력 일관성 문제를 드러냅니다. 또한 이 중국 모델은 8억 6천만(860M) 개의 토큰을 소모하여 Opus의 4억 3천 9백만(439M) 개보다 거의 두 배에 달했으며, 작업당 평균 반복 횟수도 Opus의 80회 대비 99회를 기록했습니다.

중요한 가격 격차

비용 측면에서는 경쟁 구도가 뒤바뀝니다. Zhipu의 공식 가격표에 따르면 GLM-5.2의 비용은 입력 토큰 100만 개당 1.40달러, 출력 토큰 100만 개당 4.40달러입니다. 제3자 리셀러들은 이보다 더 낮은 가격을 제시하기도 합니다. Claude Opus 4.7은 입력 5달러, 출력 25달러입니다. GPT-5.5는 입력 5달러, 출력 30달러의 비용이 듭니다.

GLM의 더 높은 토큰 소비량은 그 이점의 일부를 상쇄하지만, 그 정도는 아닙니다. 출력 100만(M) 토큰당 4.40달러라면, 토큰 사용량이 두 배로 늘어나더라도 여전히 25달러/M보다 훨씬 낮은 수준입니다. 대규모 코딩 워크로드(workload)의 경우, 이러한 산술적 차이는 기업의 조달(procurement) 결정을 변화시킵니다.

GLM의 승리와 패배

Ramaswamy는 GLM의 강점이 두 플랫폼 모두에서 동시에 코드를 안정적으로 검증하는 것이라고 언급했습니다. 이는 GLM만이 해결할 수 있었던 작업이었습니다. 반면 약점은 너무 일찍 포기하거나 잘못된 것을 집요하게 확인한다는 점입니다. 한 작업에서 GLM은 24분 동안 411회의 도구 호출(tool calls)을 실행하며 행 수(row counts), 분포(distributions), null 값, 컬럼 유형(column types) 등을 확인했지만, 세 번의 시도 모두 실패했습니다. Opus는 동일한 작업을 9분 동안 49회의 호출만으로 해결했습니다.

"GLM이 더 깔끔한 코드를 생성한다는 주장은 입증되지 않았습니다"라고 Ramaswamy는 말했습니다. 더 많은 확인 작업이 더 정확한 결과로 이어지지는 않습니다. 그럼에도 불구하고 Snowflake 팀은 GLM-5.2에 대해 기대하고 있으며, 이를 고객들에게 제공하기를 원합니다.

가치 평가 스트레스 테스트

진정한 이야기는 벤치마크 점수가 아닙니다. Anthropic과 OpenAI 모두에게 기업용 핵심 사용 사례(use case)인 코딩 분야가 지속적인 가격 압박에 직면할 경우, 서구권 AI 기업들의 가치 평가(valuation)에 어떤 일이 벌어질 것인가 하는 점입니다. OpenAI는 2026년 6월에 IPO(기업공개) 서류를 제출했습니다 [이전 보도에 따름]. Anthropic은 1조 달러 이상의 가치로 2026년 IPO를 목표로 하고 있습니다. 두 회사 모두 각각 115억 달러 이상과 400억 달러 이상의 자금을 조달했으며, 인프라 투자 약속은 이 수치들과 연계되어 있습니다.

만약 기업 고객이 중국 모델을 통해 코딩 능력의 90%를 비용의 20%만으로 얻을 수 있다면, 조달 팀은 이를 주목할 것입니다. GLM-5.2의 토큰 비효율성은 단가가 그토록 낮을 때는 큰 문제가 되지 않습니다.

주목해야 할 점

Snowflake의 공식적인 GLM-5.2 가용성 발표와 기업 고객들이 코딩 워크로드를 전환하는지 여부를 지켜보십시오. 또한 Anthropic과 OpenAI의 다음 가격 책정 움직임도 추적해야 합니다. 두 회사 모두 IPO 압박에 직면해 있으며, 중국의 가격 정책에 맞서 코딩 수익 마진을 방어해야 할 수도 있습니다.

Opus 4.7 is the better model, but GLM is competitive in Snowflake's code benchmark and costs far less. | Image: via X

출처: the-decoder.com

[25년 6월 업데이트, scmp_tech 경유]

법적 문서에 따르면 [Bloomberg 보도], Anthropic은 Alibaba가 수천 개의 사기 계정을 사용하여 자사의 Claude AI 모델에 불법적으로 접근했다고 비난했습니다. 이러한 의혹이 제기된 캠페인은 중국의 접근을 제한하려는 Anthropic의 조치를 무력화하며, Zhipu의 GLM-5.2가 전 세계적으로 탄력을 받고 있는 시점에 발생했습니다. 이와 별개로, 미국 정부의 외국 접근 차단으로 인해 발생한 Anthropic의 Fable 5 전 세계적 중단 사태는 개발자들을 중국산 대안으로 밀어냈으며, 이는 Zhipu에게 전략적 기회를 창출하고 있습니다 [SCMP 보도].

원문 게시: gentic.news

GLM-5.2, Snowflake 코딩 테스트에서 Opus 4.7과 대등한 성능을 1/5 가격으로 달성

요약

핵심 포인트

중요한 가격 격차

GLM의 승리와 패배

가치 평가 스트레스 테스트

주목해야 할 점

댓글