GLM 5.2가 공짜는 아니다: US$4,000 Spark로도 실행 불가

GLM 5.2는 오픈 소스이며 다운로드하는 것은 무료입니다. 하지만 실제로 구동하는 것은 별개의 문제입니다. 최적화된 버전으로만 해도 최소 240 GB의 메모리가 필요합니다. 저는 여기에 전용으로 US$4,000짜리 DGX Spark를 가지고 있는데, 여기에는 128 GB가 장착되어 있어 아예 시작할 만큼 충분하지 않습니다. 이것은 의견이 아니라 계산입니다. 저를 괴롭히는 것은 모델 자체가 아닙니다. 터미널을 열어본 적 없는 사람들이

버전	메모리	일반적인 하드웨어	대략적인 비용	속도
FP16 (전체, 품질 저하 없음)	~1,642 GB	2-3대의 DGX 서버 (16-24개의 GPU)	미화 50만 달러에서 100만 달러 이상	서비스 제공업체 수준
...

밑에서부터 위로 읽어보세요. 정확히 이 용도로 구매한 저의 4,000달러짜리 Spark는 최소 요구 사양에도 미치지 못합니다. GLM 5.2는 240 GB가 필요한데 이 기기는 128 GB뿐입니다. 아예 들어가지조차 않습니다.

모델이 돌아가는 첫 번째 단계는 2-bit로 압축(품질 저하 발생)된 10,000달러짜리 Mac이며, 속도는 초당 36 토큰(tokens per second)입니다. 그 정도 속도라면 모델보다 당신의 타자 속도가 더 빠릅니다. 모델을 괜찮고 빠르게 사용하려면 이미 6자리 숫자(수십만 달러) 단위의 비용이 듭니다. 그리고 서비스 제공업체(OpenRouter, Nvidia NIM 및 친구들)가 제공하는 방식대로, 즉 전체 정밀도(full precision)로 실행하려면 23대의 DGX 서버가 필요하며 비용은 최대 100만 달러에 달합니다.

게다가 이것은 단지 장비를 구매하는 비용일 뿐입니다. 장비를 계속 켜두기 위한 전기 요금이나, 몇 달 뒤 더 큰 모델이 출시되어 당신의 투자가 뒤처지는 상황, 또는 이 모든 것을 유지보수하는 데 드는 시간은 포함되지 않았습니다. 서비스 제공업체는 이러한 데이터 센터 비용을 수천 명의 사용자에게 분산시키고, 당신에게는 100만 토큰당 1달러 미만의 아주 적은 금액을 청구합니다. 당신은 기기를 하루 중 대부분 꺼두더라도, 오직 당신만을 위해 그 비용 전체를 감당해야 합니다.

DeepSeek, Qwen, GLM: "무료"는 마케팅이다

새로운 모델이 출시될 때마다 이 패턴은 반복됩니다. 유료 모델에 대항하는 오픈 소스 (open source) 모델이 출시되면, 다음 날 인터넷의 절반은 이제 최상급 AI를 무료로 쓸 수 있다고 선언합니다. DeepSeek도 이 과정을 거쳤습니다. 거대한 Qwen 시리즈도 마찬가지입니다.

영상에는 담기지 않은 부분은 이것입니다. 해당 모델들을 사용 가능한 속도로 실행하려면, API 구독료 몇 년 치를 상쇄하고도 남을 만큼의 하드웨어 투자가 필요합니다. 오픈 라이선스 (open license)가 그 비용을 아껴주지는 않습니다. 단지 누가 그 비용을 지불하느냐를 바꿀 뿐입니다. 모델 제공업체 대신, 당신이 장비라는 형태로 그 비용을 지불하게 됩니다.

이러한 패턴은 자신이 한 번도 실행해 본 적 없는 모델에 대해 이야기하는 크리에이터들의 수십 개 게시물에서 나타납니다. 공식은 항상 동일합니다. 웅장한 이미지, 금고가 열리며 모델이 데스크톱 컴퓨터를 향해 흘러나오는 모습, 그리고 "최고의 코딩 모델은 더 이상 대여하지 않습니다, 오픈 소스(open source)입니다"와 같은 헤드라인이 등장합니다. 믿기지 않을 정도로 멋지게 들립니다. 하지만 여기에는 두 가지 문제가 있습니다. 첫째, 그래픽 카드 한 장이 장착된 그 데스크톱 컴퓨터는 GLM 5.2를 실행할 수 없으며, 근처에도 가지 못합니다. 그 이미지는 불가능한 것을 그려내고 있습니다. 둘째, "더 이상 대여하지 않는다"는 말은 정확히 반대로 되어 있습니다. 당신은 그것을 실행할 곳이 없기 때문에 API를 통해 계속 대여하게 됩니다. 금고가 열린 것은 맞지만, 그 안에는 오직 12,000달러짜리 장비에만 들어갈 수 있는 무언가가 들어있습니다. 오픈(Open)이 접근 가능함(accessible)을 의미하지는 않습니다. 대부분의 사람들에게 그 "해방된" 모델은 유료 폐쇄형(closed) 모델만큼이나 멀리 떨어져 있습니다.

그렇다면 나는 무엇을, 무엇을 위해 로컬에서 실행하는가

나는 이 문제를 외부자의 입장에서 이야기하는 것이 아닙니다. 나는 나의 운영과 업무에서 매일 오픈 소스 모델을 사용합니다. Spark에서 나는 Gemma 4와 Qwen 3.6처럼 사양에 맞는 더 작은 모델들을 실행합니다. 그것들은 잘 작동합니다. 하지만 메모리 대역폭(memory bandwidth) 때문에, 초당 토큰 생성량(tokens per second)이 실시간 대화에 사용하기에는 충분하지 않습니다.

그래서 나는 속도가 중요하지 않은 작업에 그것들을 할당합니다. 나의 에이전트(agents), 밤새 실행해 두는 프로세스들, 그리고 나만의 AI 모델 벤치마크가 그것입니다. 그런 용도로는 그것들이 완벽하며, 나는 API 비용을 지불하지 않습니다.

그리고 진짜 속도가 필요한 오픈 소스 모델이 필요할 때(나의 거의 모든 n8n 자동화 작업들), 나는 Ollama Cloud의 API를 통해 실행합니다. 오픈 소스인 것은 맞습니다. 하지만 무료는 아닙니다. 바로 이 점이 간과되곤 합니다. 오픈 소스라고 해서 돈을 내지 않는다는 뜻이 아닙니다. 그것은 당신의 하드웨어와 API 사이에서 어디에 비용을 지불할지 선택한다는 의미입니다. 내가 오픈 소스 모델에 연결된 Claude Code를 사용할 때도 마찬가지입니다. 모델은 오픈되어 있지만, 누군가는 컴퓨팅 자원(compute)을 제공하고 누군가는 그 비용을 지불합니다.

모델을 로컬에서 실행하는 것이 실제로 의미가 있는 시점은 언제인가?

그 이유가 지갑이 아닌 데이터 때문일 때입니다. 민감한 정보를 다루고 있으며 그 정보가 기기를 벗어나는 것을 원치 않는다면, 집에서 모델을 실행하는 것은 세상에서 가장 타당한 선택입니다. 개인정보 보호(Privacy)와 통제권(Control)은 셀프 호스팅(self-hosting)을 위한 정직한 논거입니다. 비용 절감은 그렇지 않습니다. 누군가 저렴하기 때문에 로컬 실행이 좋다고 판매한다면 의심하십시오. 하지만 개인정보 보호를 위해 권한다면 귀를 기울이십시오. 그것이 판단의 기준입니다.

최종적인 증거는 OpenRouter 순위에 있다

만약 GLM 5.2를 집에서 무료로 실행하는 것이 실용적이었다면, 아무도 그것을 사용하기 위해 비용을 지불하지 않았을 것입니다. OpenRouter 사용 순위를 보십시오. GLM 5.2는 2026년 6월 말 기준 해당 플랫폼에서 가장 많이 사용되는 모델 중 하나입니다. 그리고 OpenRouter는 API를 통해 모델을 호출하고 토큰(token)당 비용을 청구하는 유료 서비스입니다.

다시 말해, GLM 5.2를 사랑하는 사람들조차 비용을 지불하며 사용하고 있다는 뜻입니다. 그것이 합리적이기 때문입니다. 모델은 훌륭합니다. "무료"라는 말은 꾸며낸 부분입니다.

다음 "이것은 무료입니다"라는 말을 공유하기 전에

분명히 말씀드리겠습니다. 저는 오픈 소스(open source)가 이 정도로 훌륭하다는 사실이 기쁩니다. 그렇기에 제가 Spark를 가지고 있고, 출시되는 모든 모델을 테스트하며, 작업에 따라 여러 모델로 스택(stack)을 나누어 사용하는 것입니다. 이것은 오픈 소스에 반대하는 것이 아닙니다. 허상(smoke)에 반대하는 것입니다.

다음에 "이 모델은 무료이며 유료 모델을 이깁니다"라는 문구를 보게 된다면, 공유 버튼을 누르기 전에 스스로에게 두 가지 질문을 던져보십시오. "사용 가능한 속도로 이를 실행할 컴퓨터의 비용은 얼마인가?", 그리고 "실시간 응답이 필요한가, 아니면 밤새 실행해 두어도 괜찮은가?" 이 두 가지 답변을 통해 여러분의 사례와 예산에 맞춰 진정으로 결정하십시오. 터미널(terminal) 한 번 열어본 적 없는 사람의 흥분에 휩쓸리지 마십시오.

저는 cristiantala.com에서 AI에 대해 쓰고 모델을 테스트합니다. 매달 89개 모델의 벤치마크(benchmark)를 게시합니다.