r/LocalLLaMA분석2026. 06. 21. 18:33

DeepSWE 벤치마크 결과: GLM-5.2가 Gemini와 GPT-5.4를 능가했으나, 토큰 사용량/비용 측면에서 매우 비효율적임 (Theo

요약

GLM-5.2 오픈 웨이트 모델이 DeepSWE 벤치마크에서 GPT-5.4와 Gemini를 능가하는 코딩 성능을 기록했습니다. 하지만 과도한 출력 토큰 사용으로 인해 작업당 비용 효율성은 GPT-5.5나 Claude Opus 4.8보다 현저히 낮습니다.

핵심 포인트

GLM-5.2가 순수 코딩 능력에서 GPT-5.4 및 Gemini를 앞섬
오픈 웨이트 모델로서 매우 높은 벤치마크 성과 달성
과도한 출력 토큰 사용으로 인한 높은 실행 비용 문제
비용 효율성 측면에서는 GPT-5.5 및 Claude Opus 4.8에 뒤처짐

Theo (t3.gg)가 X(구 트위터)에 게시한 새로운 GLM-5.2 오픈 웨이트 (open-weight) 모델의 최신 DeepSWE 리더보드 통계 분석 내용을 보았습니다.

좋은 소식은, 이 모델이 순수 코딩 능력 면에서 GPT-5.4와 Gemini 라인업 전체를 공식적으로 앞서고 있다는 점입니다. 오픈 웨이트 (open-weight) 모델이 이 정도로 높은 성과를 내는 것을 보는 것은 정말 멋진 일입니다.

문제는 무엇일까요? 실행 비용이 저렴하지 않다는 점입니다.

차트에 따르면:
GPT-5.5 (medium)와 Claude Opus 4.8 (high)는 작업당 평균 비용 기준으로 둘 다 더 저렴하면서도 더 똑똑합니다.
GLM-5.2는 오픈 웨이트 (open-weight) 상태임에도 불구하고 효율성 곡선에서 훨씬 낮은 위치에 머물러 있습니다.

Theo는 답글을 통해 거대한 주의 사항을 지적했습니다: GLM-5.2는 출력이 훨씬 더 많은 토큰 (output tokens)을 사용하는 것으로 보입니다. 따라서 서류상으로 기본 토큰 비용이 저렴해 보일지라도, 작업을 완료하는 데 필요한 엄청난 양의 토큰이 전체 비용을 훨씬 더 높게 끌어올립니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeepSWE 벤치마크 결과: GLM-5.2가 Gemini와 GPT-5.4를 능가했으나, 토큰 사용량/비용 측면에서 매우 비효율적임 (Theo

요약

핵심 포인트

댓글