GLM 5.2는 무료가 아니다: 심지어 US$4,000짜리 Spark로도 구동이 어렵다

GLM 5.2는 오픈 소스(open source)이며 다운로드하는 것은 무료이다. 하지만 실제로 구동하는 것은 또 다른 문제다. 최상의 경우에도 약 240 GB의 메모리가 필요하며, 이것은 가장 압축된 버전일 때 이야기다. 나는 여기에 전용으로 US$4,000짜리 DGX Spark를 가지고 있는데, 여기에는 128 GB가 장착되어 있어 아예 구동조차 할 수 없다. 이는 의견이 아니라 산술적 계산이다. 나를 짜증나게 하는 것은 모델 자체가 아니다. '무료'라고 외치지만 터미널을 열어본 적 없는 사람들의 허풍이다.

왜 모두 GLM 5.2가 무료라고 말하는가?

그들은 두 가지 다른 것을 혼동하기 때문이다. 하나는 라이선스다. GLM 5.2는 2026년 6월 13일에 MIT 라이선스로 출시되었는데, 누구나 돈을 내거나 허락을 구할 필요 없이 가중치(weights)를 다운로드할 수 있다. 이것은 사실이며 매우 좋다.

다른 하나는 사용 비용이다. 모델을 다운로드하는 것은 아무 비용이 들지 않는다. 하지만 그것을 쓸 만한 속도로 작동하게 만드는 것은 돈이 들고, 비싸다. 이 두 가지 사실은 공존하지만, 네가 보는 게시물들은 첫 번째 사실만 이야기한다. 'MIT 라이선스로 공개된 가중치'는 '무료이고 유료 모델보다 뛰어나다'라는 문구만큼 많은 좋아요를 얻지 못한다.

최고의 무료 AI는 무엇인가? 질문 자체가 잘못되었다

이것은 모두가 하는 검색이므로, 나는 직접적으로 답하겠다. 오늘날 가장 좋은 오픈 소스(open source) AI (GLM 5.2, DeepSeek, 대형 Qwen 등)는 거의 누구에게도 구동하는 것이 무료가 아니다. '무료'라는 단어는 이미 실행할 장소가 있다고 가정한다. 바로 여기에 함정이 있다.

유료 모델과 경쟁하는 오픈 소스 모델들은 엄청나게 크다. 그것들은 네 노트북에서 작동하지 않는다. 그들은 세상에 존재하는 컴퓨터 중 극히 일부에서만 작동한다. 네 기기에 들어가는 작은 모델은 랭킹에서 이기는 것을 본 모델이 아니다.

GLM 5.2를 실제로 구동하는 비용

GLM 5.2는 약 7,500억 개의 파라미터를 가진 전문가 혼합(mixture of experts) 모델이다. 그것을 구동하는 데 드는 비용은 두 가지에 달려있다: 얼마나 압축하느냐 (그리고 그로 인해 어느 정도의 품질을 포기하느냐) 그리고 얼마나 빠르게 원하는가. 이것이 실제 지형도다:

버전	메모리	전형적인 하드웨어	대략적인 비용	속도
FP16 (품질 저하 없는 전체 모델)	~1.642 GB	2-3대의 DGX 서버 (16-24개의 GPU)	US$500,000 ~ 1M+	서비스 제공업체 수준
...
아래에서 위로 읽으세요. 정확히 이 용도로 구매한 나의 US$4,000짜리 Spark는 최소 요구 사양에도 미치지 못합니다. GLM 5.2는 240 GB가 필요하지만, Spark는 128 GB뿐입니다. 아예 돌아가지도 않습니다.

모델이 구동되기 시작하는 첫 번째 단계는 2비트(bits)로 압축되어(품질 저하 발생) 초당 36개의 토큰(tokens)을 생성하는 US$10,000짜리 Mac입니다. 그 속도라면 모델보다 당신이 더 빨리 글을 쓸 것입니다. 제대로 된 속도를 확보하려면 이미 6자리 숫자(수십만 달러)의 비용이 듭니다. 그리고 서비스 제공업체(OpenRouter, Nvidia NIM 등)가 제공하는 방식처럼 전체 정밀도(full precision)로 구동하려면, 23대의 DGX 서버와 최대 100만 달러가 필요합니다.

게다가 이것은 단순히 장비를 구매하는 비용일 뿐입니다. 장비를 켜두는 데 드는 전기 요금, 몇 달 뒤 더 큰 모델이 출시되어 당신의 투자가 부족해질 가능성, 그리고 모든 것을 유지 관리하는 데 드는 시간은 포함되지 않았습니다. 서비스 제공업체는 이러한 데이터 센터(datacenter) 비용을 수천 명의 사용자에게 분산시키고, 당신에게는 백만 토큰당 몇 센트의 비용만 청구합니다. 당신은 장비를 하루 중 대부분 꺼두더라도, 오직 당신만을 위해 그 비용 전체를 감당해야 합니다.

DeepSeek, Qwen, GLM: "무료"는 마케팅이다

이 패턴은 매 출시 때마다 반복됩니다. 유료 모델에 대항하는 오픈 소스(open source) 모델이 출시되면, 다음 날이면 인터넷 절반이 이제 최고의 AI를 무료로 쓸 수 있다고 떠들어댑니다. DeepSeek도 이 과정을 거쳤습니다. 대규모 Qwen 모델들도 마찬가지입니다.

영상에 담기지 않는 부분은 이것입니다. 이러한 모델들을 쓸만한 속도로 구동하려면, API 구독료 몇 년 치를 상쇄하고도 남을 하드웨어 투자가 필요합니다. 오픈 라이선스(open license)라고 해서 그 비용이 절약되는 것은 아닙니다. 단지 누가 지불하느냐가 바뀔 뿐입니다. 모델 제공업체가 내던 비용을, 이제는 당신이 장비라는 형태로 직접 지불하게 되는 것입니다.

이러한 패턴은 한 번도 실행된 적 없는 모델들에 대해 이야기하는 수십 명의 크리에이터들의 게시물에서 반복됩니다. 공식은 항상 비슷합니다. 웅장한 이미지, 열리는 금고, 그리고 데스크톱 컴퓨터를 향해 나오는 모델, 그리고 "최고의 코딩 모델은 이제 대여하는 것이 아니라 오픈 소스(open source)입니다"와 같은 헤드라인입니다. 믿기지 않게 들리죠. 하지만 여기에는 두 가지 문제가 있습니다. 첫 번째는, 그래픽 카드가 장착된 그 데스크톱 컴퓨터로는 GLM 5.2를 근처에도 못 간다는 점입니다. 그 이미지는 불가능한 것을 묘사하고 있습니다. 두 번째는, "더 이상 대여하지 않는다"는 말은 정반대라는 점입니다. 당신은 여전히 API를 통해 그것을 대여하고 있습니다. 왜냐하면 그것을 실행할 장소가 없기 때문입니다. 금고가 열린 것은 맞지만, 그 안에는 오직 12,000달러짜리 장비에만 들어갈 수 있는 무언가가 들어있습니다. '공개(Open)'된 것이 '접근 가능(Accessible)'하다는 것과 같지는 않습니다. 대부분의 사람들에게, 그 "해방된" 모델은 유료로 폐쇄된 모델만큼이나 멀리 떨어져 있습니다.

그럼, 나는 로컬(local)에서 무엇을 실행하는가? 그리고 무엇을 위해?

나는 외부에서 이 이야기를 하는 것이 아닙니다. 나는 나의 운영과 업무에서 매일 오픈 소스(open source) 모델을 사용합니다. 나는 Spark에서 Gemma 4와 Qwen 3.6을 실행하는데, 이들은 실제로 들어갈 수 있는 더 작은 모델들입니다. 잘 작동합니다. 하지만 메모리 대역폭(bandwidth) 때문에, 초당 토큰(tokens per second) 수가 실시간 대화에 사용하기에는 충분하지 않습니다.

그래서 나는 속도가 중요하지 않은 작업에 그것들을 할당합니다. 나의 에이전트(agents), 밤새 돌아가도록 놔두는 프로세스들, 그리고 나만의 AI 모델 벤치마크(benchmark de modelos de IA)를 위해서 말이죠. 그런 용도로는 완벽하며, API 비용을 지불하지 않아도 됩니다.

그리고 실제적인 속도가 필요한 오픈 소스 모델이 필요할 때(제 n8n 자동화 작업의 거의 대부분), 저는 Ollama Cloud의 API를 통해 실행합니다. 오픈 소스(Open source)는 맞습니다. 하지만 무료는 아닙니다. 바로 이 지점이 간과되는 부분입니다: 오픈 소스라고 해서 비용이 들지 않는다는 뜻은 아닙니다. 그것은 여러분의 자체 하드웨어(Hardware)에 지불할 것인지, 아니면 API에 지불할 것인지를 선택한다는 의미입니다. Claude Code를 오픈 소스 모델에 연결하여 사용할 때도 마찬가지입니다. 모델은 공개되어 있지만, 연산(Compute)은 누군가가 제공하며 누군가는 그 비용을 지불합니다.

언제 로컬(Local)에서 모델을 실행하는 것이 '정말로' 유리할까?

그 이유가 지갑이 아닌 '데이터' 때문일 때입니다. 민감한 정보를 다루고 있고 그 정보가 기기 밖으로 나가는 것을 원치 않는다면, 집에서 모델을 실행하는 것은 매우 합리적인 선택입니다. 프라이버시(Privacy)와 제어(Control)는 셀프 호스팅(Self-hosting)의 정직한 명분입니다. 비용 절감은 명분이 아닙니다. 누군가 로컬 실행이 저렴하다고 말한다면 의심하십시오. 하지만 프라이버시를 위해 필요하다고 말한다면 귀를 기울이십시오. 그것이 필터가 되어야 합니다.

최종 시험은 OpenRouter 랭킹에 있다

만약 집에서 GLM 5.2를 무료로 실행하는 것이 실용적이었다면, 아무도 비용을 내고 사용하지 않았을 것입니다. OpenRouter 사용량 랭킹을 보십시오. GLM 5.2는 2026년 6월 말 기준 플랫폼에서 가장 많이 사용되는 모델 중 하나입니다. 그리고 OpenRouter는 API를 통해 모델을 호출하고 토큰(Token) 단위로 비용을 지불하는 유료 서비스입니다.

즉, GLM 5.2를 사랑하는 사람들조차 돈을 내고 사용한다는 뜻입니다. 그것이 합리적이기 때문입니다. 모델은 훌륭합니다. "무료"라는 부분은 허구입니다.

다음번 "무료"라는 소식을 공유하기 전에

분명히 해둡시다: 저는 오픈 소스가 이토록 훌륭하다는 점을 축하합니다. 제가 Spark를 보유하고 있는 이유도, 출시되는 모든 모델을 테스트하는 이유도, 작업에 따라 제 스택(Stack)을 여러 모델로 분산해 놓은 이유도 바로 그 때문입니다. 이것은 오픈 소스에 반대하는 것이 아닙니다. 허풍(Smoke)에 반대하는 것입니다.

다음에 "이 모델은 무료이며 유료 모델을 이깁니다"라는 문구를 보게 된다면, 공유하기 전에 두 가지 질문을 스스로에게 던져보십시오. 첫째, 사용 가능한 속도로 모델을 구동하는 컴퓨터의 비용은 얼마인가? 둘째, 실시간 응답이 필요한가, 아니면 밤새 돌려놓아도 상관없는가? 이 두 가지 답변을 통해 당신의 사례와 예산에 맞춰 진지하게 결정하십시오. 터미널(Terminal)조차 한 번 열어본 적 없는 누군가의 열광에 휩쓸리지 마십시오.

원문은 cristiantala.com에 게시되었습니다. 저는 AI 모델을 테스트하며 89개 모델에 대한 월간 벤치마크 (Benchmark)를 게시합니다.

Insights