GLM-5.2를 로컬에서 실행하는 방법

Q4_K_XL을 돌리고 있음. 약 6tk/sec를 내려면 RAM 512GB와 RTX 3090 2장, llama.cpp -cmoe면 충분함
지금은 구린 DDR4 2400MHz라서 그렇고, 3200MHz면 9tk/sec 정도까지 올라갈 듯함. CPU도 32코어 EPYC라 괜찮은 수준인데, 더 좋은 64코어면 11tk/sec까지 갈 수 있어 보임
하드웨어 가격이 미치기 전에 예산형으로 맞췄고 매일 후회하지만, 그래도 이 모델을 집에서 돌릴 수 있다는 건 훌륭함. 계획 세우기나 필요한 맥락을 다 모은 뒤 원샷 프롬프트에 좋음
전체 하드웨어 비용은 조립 당시 2,400달러였고, 발품을 팔면 이런 모델을 집에서도 돌릴 방법이 있음. 왜 그러냐거나 클라우드 API 쓰면 얼마나 아끼냐는 질문을 자주 받지만, Fable 사태가 독립적으로 운영하는 것의 가치를 보여줬다고 봄
unsloth 팀 고맙고, Q4_K_XL은 탄탄함. 양자화 모델을 받을 거라면 들어가기만 한다면 K_XL 변형을 받는 게 좋음

이런 홈브루 실험으로 가능 범위를 밀어붙이는 사람들에게 박수를 보냄. 암호화폐처럼 AI도 장사꾼 소음에 묻혀 있지만, 회복탄력성을 키우는 이야기는 거의 없음
오픈소스 모델을 전동칫솔이나 Tamagotchi에 욱여넣으려는 연구자들도 마찬가지로 멋짐

그 부하를 계속 돌리면 최소 600W라 하루 약 14kWh가 됨. kWh당 0.2달러면 하루 2.80달러, 전기 운영비만 연 1,000달러쯤 듦
프라이버시나 직접 소유하는 만족감이 꼭 필요한 게 아니라면, 하이퍼스케일러에 돈 내는 편이 더 싸고 편하고 초당 토큰도 훨씬 빠름
그래도 방향성은 마음에 들고, 2년 뒤에는 어떤 자가 호스팅 하드웨어가 나올지 기대됨

거의 같은 구성을 갖고 있음. RTX 3090 2장, 조금 더 빠른 DDR4 512GB, 64코어 EPYC 구성임 [0]
꽤 즐겁게 쓰고 있고 이 모델도 빨리 돌려보고 싶음
로컬 모델 실행 말고도 이 장비를 주 원격 개발 플랫폼으로 사용함. 모든 Claude Code 세션을 이제 거기서 tmux로 돌리고 있음
계속 뜨거운 노트북을 만지지 않아도 돼서 손가락이 행복함. Claude Code가 배터리를 엄청 먹는다는 점도 있음
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...

“돌리는 데 필요한 건 이 정도”라는 표현은 2,400달러에 샀다면 맞을 수 있지만, 지금 총가격은 1만 달러에 훨씬 가까움
RAM만 거의 5,000달러, GPU가 각각 2,000달러쯤이라 현재 기준으론 꽤 비싼 하드웨어임

내가 이해하기로는 이 모델에 대한 llama.cpp 구현은 아직 DSA 희소 어텐션 지원이 빠져 있어서 꽤 미완성임
그래서 학습 때 쓰지 않은 다른 메커니즘으로 모델을 돌리게 되고, 품질과 성능이 낮아진다는 결과도 있었음
어쨌든 GLM 5.2는 여러 면에서 DeepSeek V4 계열만큼 흥미롭지는 않다고 봄. DeepSeek V4는 더 진보한 어텐션 메커니즘을 써서 특히 긴 문맥에서 KV 캐시 메모리를 많이 아낄 수 있음
그 결과 소비자용 플랫폼에서도 넓은 배치 처리가 가능해짐. GLM에는 그게 없고, 기저 성능 구조 면에서는 Kimi 2.6과 대체로 비슷하게 느껴짐. 둘 다 일반 하드웨어에서 풀 품질로 합리적으로 돌리기엔 조금 너무 무거움

50만 달러는 엄청난 과대평가임. FP8이나 BF16에서 대규모 동시성을 노린다면 그럴 수는 있음
NVFP4로 적당한 속도, 대략 120 tok/s와 동시성은 현재 가격 기준 8만~9만 달러 선에서도 가능하고, 더 낮을 수도 있음
그 돈이면 RTX 6000 PRO Blackwell 6장, 괜찮은 CPU와 메인보드, 전원공급장치를 살 수 있음. VRAM은 576GB임
디코드 40 tok/s, 프리필 약 1200 tok/s로 괜찮다면 5만 달러 아래로도 가능함

2비트로는 좋은 결과가 나오기 어려움. 코딩에 이상적인 범위는 적어도 Q8임

이번 붐이 90년대 같은 컴퓨팅 하드웨어 발전을 다시 촉발하길 바라고 있음
지난 20년 동안 하드웨어가 상대적으로 정체된 이유 중 하나는 기업들이 하드웨어 교체를 정당화할 사용처가 부족했기 때문이라고 느낌
지난 15년 동안 돈과 에너지의 대부분은 모바일로 갔음
저렴한 로컬 추론이 서버, 데스크톱, 노트북 제조사들이 다시 움직이는 데 필요한 수익원이 될 수도 있음

RAM은 있지만 VRAM이 없음. 24GB RAM의 3090으로 어떤 속도나 tok/s를 기대할 수 있을까?
24GB RAM이 있는 GPU를 하나 사볼까 조금 끌림

재미삼아 Gemini에 물어봤더니, 양자화하지 않은 상태에서 괜찮은 처리량을 내려면 50만 달러라고 답했음

“들어간다”는 말은 RAM 256GB에 들어간다는 뜻이지만, 심하게 양자화된 상태이고 여전히 매우 느리게 돌 것임
헤드라인 숫자는 토큰 생성 속도가 아니라 프롬프트 처리 속도임
10 tok/s가 나오고 API가 20~~30 tok/s라면 겉보기엔 그렇게 나빠 보이지 않지만, Mac Studio나 전체를 GPU에 올리지 않는 장비는 순수 GPU 구성보다 프롬프트 처리가 20~~50배 느림
이게 결국 GPU에 5만 달러를 쓰지 않으면 실제로는 못 쓰게 만드는 부분임. 게다가 여전히 심하게 양자화된 모델을 쓰게 됨

Nvidia의 Spark 같은 장비는 통합 RAM 128GB가 있음
이런 장비용 이중 포트 버전도 있음: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
즉 2 x 100GB/s 포트이고, 어쩌면 2 x 200GB/s일 수도 있음. 직접 손에 넣어보면 더 알게 될 듯함
이런 장비들은 클러스터링도 가능함. 2대나 3대는, IP 서브넷 2개를 쓰면 꽤 명확함. 4대 이상은 네트워크 지연 시간이 얼마나 영향을 주는지에 따라 스위치가 필요할 수도 있음
Apple은 RAM을 많이 넣은 M 시리즈를 잊어버린 것 같음. Apple 매장에서 통합 RAM 96GB 넘는 구성을 못 찾겠고, 그마저도 신장 하나값임

여러 방향에서 동시에 밀어붙이고 있음: GB10을 쓰는 새 AI 데스크톱은 비교적 저렴하고 클러스터링으로 VRAM 1TB를 구성할 수 있음
Nvidia, AMD, Intel, Cerebras 등이 새 하드웨어를 밀고 있고, GLM 5.2 같은 오픈소스 모델은 말도 안 되게 좋아지고 있음
DeepSeek V4 Flash 같은 플래시 모델도 매우 좋아지고 있고, 양자화도 발전 중임
어려운 일에는 큰 모델, 잡일에는 작은 모델처럼 서로 다른 모델을 쓸 수 있는 하네스도 가능해지고 있음
그래서 API에서 벗어나고 싶은 사람들은 곧 합리적인 가격의 AI 데스크톱 클러스터를 집에서 호스팅하면서 Opus급 성능을 쓸 수 있기를 기대함

여기서 “비교적”이라는 말이 꽤 많은 일을 하고 있음. GB10 한 대가 약 4,000달러라면 1TB 클러스터는 36,000달러임
동급 H200과 비교하면 싸지만, OpenAI나 Anthropic RSU로 자금이 뒷받침되지 않는 홈랩에는 여전히 손이 안 닿음

코딩까지 포함해 충분히 좋은 모델을 로컬에서 돌릴 수 있는 수준으로 격차가 줄어드는 느낌이고, 몇몇 회사는 좀 불안해할 것 같음. 내가 틀린 걸까?

지금 RAM/GPU 부족이 아니었다면 그 회사들은 지금보다 더 불안했을 것임
하지만 현재로서는 이 모델을 효과적으로 돌릴 장비를 감당할 수 있는 사람이 매우 적음. 앞으로 몇 년은 크게 바뀌지 않을 듯함
Z.ai가 코딩 특화 GLM-5.2 Flash 같은 버전을 약 80B 매개변수 규모로 내놓는다면 미국 최전선 연구소들이 더 걱정할 것임
전반적으로 중국 AI 회사들은 더 적은 자원, 때로는 훨씬 적은 자원으로 같은 일을 하는 방법을 보여주고 있고, 이 흐름이 계속되면 최전선 연구소들을 불안하게 만들 것임
다만 중국 AI 회사들도 현재 주력 모델보다 훨씬 작으면서도 강력한 모델을 공개하지 않음으로써 자기 해자를 지키려 할 것임
Alibaba Qwen은 지금 그런 위치에 온 듯함. 최근에는 꽤 조용해졌고, 최신 395B 모델은 대부분의 사람이 집에서 돌리기엔 너무 큼. 이번에는 더 작은 모델을 낼 것 같은 낌새도 없음

그렇지 않다고 봄. 회사가 자체 개발용으로 이런 모델을 호스팅하고 돌리기로 결정하는 건 쉽게 상상할 수 있음
개발팀이 10명쯤이면 LLM 서버에 5만 달러를 한 번 투자하는 선택이 꽤 매력적일 수 있음
무제한 토큰, 괜찮은 성능, 업그레이드 선택지, 제품 통합 가능성이 있음
일반적으로 LLM을 제품에 넣으려는 회사라면 로컬 LLM 방식이 더더욱 매력적일 것 같음. 다소 멍청한 모델도 사람들이 제품에 통합하는 많은 용도에는 충분히 좋음

위협이 되려면 꼭 로컬에서 돌릴 필요도 없음. 많은 회사가 이런 모델을 호스팅해주는 제3자 업체에 비용을 내는 방식을 보고 있고, 가격은 최전선 연구소의 몇 분의 일 수준임

RAM 요구량은 아직 꽤 고통스러움

로컬에서 돌리는 건 경제적이지 않음. 프라이버시에는 훌륭하고 재미있는 취미이긴 함
하지만 선택지는 엄청 느린 CPU 빌드와 RAM 1만 달러, GPU 9만 달러어치, 아니면 품질 비교가 어려운 심한 양자화 모델 중 하나임
재미로 하나 만들 수는 있겠지만, 그것만으로 경제성이 바뀌지는 않음. 그래도 가능하다는 사실은 흥미로움

OpenAI와 Anthropic은 GLM 5.2의 출시 시점을 싫어할 것 같음
마법 같은 해자가 아니라 단지 선두 출발 이점이 있었다는 걸 꽤 보여줌

RAM 192GB Mac Studio를 쓸 수 있는데, 명시된 최소 RAM보다 낮음
특히 MoE니까 빠른 디스크로 스와핑해서 어떻게든 작동하게 만들 수 있을까?

그렇게 많이 스와핑을 걸면 NVMe SSD의 총 기록 수명(TBW)을 소모해서 수명을 크게 줄이는 좋은 방법처럼 보임
성능도 0.1 tok/s 수준으로 처참할 것임

unsloth가 수백만 명이 로컬 AI를 시작하도록 도운 작업은 매우 존중하지만, 이 글은 약간 다운로드 미끼처럼 보임
너무 많은 레이어를 CPU로 오프로딩하면 전혀 잘 안 됨. 여러 번 해봤고, 결국 무거운 Hugging Face 캐시 폴더들에 rm -rf를 해야 했음
GLM 5.2의 1비트나 2비트 양자화를 대부분 VRAM 밖에서 돌리는 게, VRAM에 완전히 올라간 Qwen3.6-27B Q8_0보다 유용성에서 나을지도 의심스러움

글에서 뭐라고 하든 RAM 256GB 장비에서 이걸 돌리려는 사람은 좋은 시간을 보내기 어려울 것 같음
훨씬 현실적인 최소선은 512GB임
운 좋게도 가격이 오르기 전에 싸게 산 RAM 512GB 듀얼 Xeon 워크스테이션 2대가 홈오피스에 있어서 이것저것 실험해볼 수 있음

GLM-5.2를 로컬에서 실행하는 방법

요약

핵심 포인트

댓글