DeepSWE 벤치마크 결과: GLM-5.2가 Gemini와 GPT-5.4를 능가했으나, 토큰 사용량/비용 측면에서 매우 비효율적임 (Theo
요약
GLM-5.2 오픈 웨이트 모델이 DeepSWE 벤치마크에서 GPT-5.4와 Gemini를 능가하는 코딩 성능을 기록했습니다. 하지만 과도한 출력 토큰 사용으로 인해 작업당 비용 효율성은 GPT-5.5나 Claude Opus 4.8보다 현저히 낮습니다.
핵심 포인트
- GLM-5.2가 순수 코딩 능력에서 GPT-5.4 및 Gemini를 앞섬
- 오픈 웨이트 모델로서 매우 높은 벤치마크 성과 달성
- 과도한 출력 토큰 사용으로 인한 높은 실행 비용 문제
- 비용 효율성 측면에서는 GPT-5.5 및 Claude Opus 4.8에 뒤처짐
Theo (t3.gg)가 X(구 트위터)에 게시한 새로운 GLM-5.2 오픈 웨이트 (open-weight) 모델의 최신 DeepSWE 리더보드 통계 분석 내용을 보았습니다.
좋은 소식은, 이 모델이 순수 코딩 능력 면에서 GPT-5.4와 Gemini 라인업 전체를 공식적으로 앞서고 있다는 점입니다. 오픈 웨이트 (open-weight) 모델이 이 정도로 높은 성과를 내는 것을 보는 것은 정말 멋진 일입니다.
문제는 무엇일까요? 실행 비용이 저렴하지 않다는 점입니다.
차트에 따르면:
GPT-5.5 (medium)와 Claude Opus 4.8 (high)는 작업당 평균 비용 기준으로 둘 다 더 저렴하면서도 더 똑똑합니다.
GLM-5.2는 오픈 웨이트 (open-weight) 상태임에도 불구하고 효율성 곡선에서 훨씬 낮은 위치에 머물러 있습니다.
Theo는 답글을 통해 거대한 주의 사항을 지적했습니다: GLM-5.2는 출력이 훨씬 더 많은 토큰 (output tokens)을 사용하는 것으로 보입니다. 따라서 서류상으로 기본 토큰 비용이 저렴해 보일지라도, 작업을 완료하는 데 필요한 엄청난 양의 토큰이 전체 비용을 훨씬 더 높게 끌어올립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기