본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 15. 13:07

GLM-5.2 로컬 실행하기: 누구도 차단할 수 없는 오픈 모델

요약

Zhipu AI가 100만 토큰 컨텍스트를 지원하는 7,440억 파라미터 규모의 GLM-5.2 코딩 모델을 출시했습니다. MoE 아키텍처를 채택하여 로컬 실행이 용이하며, MIT 라이선스의 오픈 웨이트로 제공될 예정입니다.

핵심 포인트

  • 744B 파라미터 규모의 MoE 기반 코딩 특화 모델
  • 100만 토큰의 방대한 컨텍스트 윈도우 지원
  • 양자화를 통한 로컬 환경 실행 가능성 확보
  • High/Max 두 가지 사고 노력(thinking-effort) 프리셋 제공
  • Claude Code, Cline 등 주요 에이전트 도구 즉시 지원

6월 9일, Anthropic은 업계에서 본 적 없는 가장 유능한 코딩 모델인 Claude Fable 5를 출시했습니다. 3일 후, 미국 정부는 전 세계 모든 사용자에 대해 해당 모델을 오프라인 상태로 만들라고 명령했습니다. 경고도 없었습니다. 전환 기간도 없었습니다. 단 하나의 지시로, 프런티어(frontier) 모델이 하룻밤 사이에 사라졌습니다.

📖 차트와 임베디드 소스가 포함된 전체 버전을 ComputeLeap에서 읽어보세요 →

같은 주, Z.ai (Zhipu AI)는 GLM-5.2를 출시했습니다 — 100만 토큰의 컨텍스트 윈도우 (context window)를 가진 7,440억 개의 파라미터 (parameter)를 보유한 코딩 모델이며, 며칠 내로 MIT 라이선스가 적용된 오픈 웨이트 (open weights)가 제공됩니다. 개발자 커뮤니티는 이 타이밍을 놓치지 않았습니다.

Hacker News thread: GLM 5.2 Is Out — 729 points, 455 comments discussing the open-weights release

ℹ️ Hacker News에 전달된 메시지는 명확했습니다. 사용자 Reubend가 표현했듯이, 그들은

사양 (Spec)값 (Value)
아키텍처 (Architecture)전문가 혼합 (Mixture-of-Experts (MoE))
...

MoE 아키텍처는 로컬 실행 가능성의 핵심입니다. 토큰당 약 400억 개의 파라미터(parameters)만 활성화되며, 나머지는 유휴 상태로 유지됩니다. 이것이 공격적인 양자화 (quantization)가 효과를 발휘하는 이유입니다. 744B의 가중치 (weights)를 압축하고 있지만, 추론 (inference) 시에는 특정 시점에 그중 극히 일부만 사용하기 때문입니다.

GLM-5.2는 두 가지 사고 노력 (thinking-effort) 프리셋인 High와 Max를 지원합니다. Z.ai는 코딩 작업의 기본값으로 Max를 권장합니다. Max는 출력을 생성하기 전에 더 긴 추론 체인 (reasoning chains)을 만들어냅니다.

이 모델은 Z.ai의 코딩 플랜 (Coding Plan) 등급(Team을 통해 월 약 $18인 Lite 등급 포함)에서 6월 13일에 출시되었으며, 단독 API와 MIT 라이선스 가중치가 일주일 이내에 뒤따랐습니다. 출시 첫날부터 Claude Code, Cline, OpenCode, Roo Code, Goose 및 여러 기타 에이전트 하네스 (agent harnesses)를 지원하므로, 아무것도 다시 구축할 필요 없이 기존 워크플로에 바로 끼워 넣을 수 있습니다.

벤치마크 주의사항. Z.ai는 출시 당시 공식적인 GLM-5.2 벤치마크를 전혀 발표하지 않았습니다. "#1 SWE-bench Pro" 주장 등을 포함하여 유포되고 있는 수치들은 GLM-5.1에서 물려받은 것입니다. GLM-5.1은 SWE-bench Pro에서 58.4점을 기록했습니다 (당시 Claude Opus 4.6의 57.3점을 앞섬).

Hacker News의 초기 댓글 작성자인 LaurensBER는 더 신중한 견해를 제시했습니다. GLM-5.2는 "프런티어 랩 (frontier labs)보다 약 6개월 뒤처져 있으며, 1월의 Opus와 매우 유사하다"는 것입니다. 오픈 가중치 (open weights) 모델로서는 강력하지만, 독립적으로 검증된 평가 (evals)에서 Claude Opus 4.8 또는 GPT-5.5와 대등한 수준은 아직 아닙니다.

하드웨어 현실 점검

744B 파라미터 모델에 대해 "로컬 실행"이 무엇을 의미하는지 솔직하게 짚어봅시다. VRAM 요구 사항은 양자화 수준에 따라 급격하게 확장됩니다:

GLM-5.2 VRAM requirements by quantization level — from 176GB at 1-bit to 1,701GB at full precision

양자화 (Quantization)디스크 크기최소 메모리실질적인 설정
2-bit Dynamic (UD-IQ2_XXS)241 GB256 GB 통합 메모리 (unified memory)M4 Ultra Mac Studio, 또는 1x24GB GPU + 256GB RAM
...

이 글을 읽고 있는 대부분의 개발자에게 현실적인 옵션은 2-bit 양자화 (quants) 모델입니다. Unsloth Dynamic 2-bit GGUF는 모델을 241GB로 줄여주며, 이는 전체 정밀도 (full precision) 대비 85% 압축된 수치입니다. 이는 256GB 통합 메모리 Mac (M4 Ultra Mac Studio 또는 사양이 최대화된 MacBook Pro)이나, MoE 오프로딩 (offloading)을 사용하여 중급 GPU와 256~300GB의 시스템 RAM을 갖춘 워크스테이션에 적합합니다.

⚠️ "메모리에 들어간다"는 것과 "빠르게 실행된다"는 것은 서로 다른 문제입니다. 2-bit 양자화 모델을 소비자용 하드웨어에서 실행할 경우, 설정에 따라 초당 약 3~9개의 토큰 (tokens per second)을 예상해야 합니다. DataCamp 튜토리얼에 따르면 H200에서 Q2_K_XL 변형 모델을 사용할 때 약 8.7 tok/s가 보고되었습니다. Mac Studio는 이보다 느릴 것입니다. 이는 배치 코딩 (batch coding) 작업에는 괜찮지만, 실시간 채팅에는 이상적이지 않습니다.

256GB가 없으신가요? 방법이 없는 것은 아닙니다. H200 또는 A100 인스턴스를 제공하는 클라우드 GPU 대여 서비스 (RunPod, Lambda 등)를 이용하면 시간당 몇 달러로 2-bit 양자화 모델을 실행할 수 있습니다. 간헐적으로 실행하는 경우라면 이는 Coding Plan 구독보다 여전히 저렴하며, 가중치 (weights)가 타인의 서버가 아닌 귀하의 디스크에 저장된다는 장점이 있습니다.

옵션 1: llama.cpp (최대 제어 권한)

llama.cpp는 Ollama와 LM Studio가 기반으로 삼고 있는 기초적인 C++ 추론 엔진 (inference engine)입니다. 이를 직접 실행하면 컴파일 플래그 (compilation flags), 하드웨어별 최적화, 그리고 서빙 파라미터 (serving parameters)에 대해 가장 높은 제어 권한을 가질 수 있습니다.

DataCamp 튜토리얼Unsloth 문서 모두 단계별 가이드를 제공합니다. 여기서는 요약된 버전을 소개합니다.

1단계: llama.cpp 빌드하기

sudo apt-get update && sudo apt-get install -y \
  build-essential cmake curl libcurl4-openssl-dev pciutils

...

Mac (Metal)의 경우, -DGGML_CUDA=ON-DGGML_CUDA=OFF로 교체하세요. Metal 가속은 기본적으로 활성화되어 있습니다.

2단계: 모델 다운로드

로컬 배포를 위해서는 Unsloth 양자화 GGUF (Unsloth quantized GGUFs)가 가장 적합합니다:

pip install -U "huggingface_hub[hf_xet]" hf-xet hf_transfer

huggingface-cli download unsloth/GLM-5-GGUF \
...

HF transfer 가속을 사용하면 다운로드 속도가 ~1.2 GB/s에 달할 수 있습니다.

3단계: 서버 실행

./llama.cpp/llama-server \
  --model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
  --alias "GLM-5.2" \
...

주요 플래그(flags):
--fit on은 시스템 RAM으로 넘어가기 전에 GPU VRAM 활용도를 극대화합니다. --flash-attn auto는 최적화된 어텐션 커널 (attention kernels)을 활성화합니다. --ctx-size 16384는 실용적인 컨텍스트 창 (context window)을 설정합니다 (메모리가 허용한다면 더 높게 설정하세요).

실행 여부를 확인합니다:

curl -s http://127.0.0.1:8080/v1/models | jq

이제 localhost:8080에서 OpenAI 호환 API를 사용할 수 있습니다. Claude Code, Aider 또는 다른 코딩 에이전트(coding agent)를 여기에 연결하세요.

4단계: 코딩 에이전트 연결

export OPENAI_API_BASE=http://127.0.0.1:8080/v1
export OPENAI_API_KEY=local

...

이 모델을 Claude Code나 다른 도구에 연결하고 싶다면, Ollama 및 OpenRouter를 사용하여 Claude Code를 실행하는 가이드를 참조하세요. 동일한 패턴이 모든 OpenAI 호환 로컬 엔드포인트(endpoint)에 적용됩니다.

옵션 2: Ollama (가장 빠른 시작)

5분 이내에 GLM-5.2를 실행하고 싶다면 Ollama가 정답입니다. Ollama는 llama.cpp를 관리형 런타임 (managed runtime)으로 감싸며, 단 한 번의 명령으로 모델을 가져올 수 있습니다.

curl -fsSL https://ollama.com/install.sh | sh

ollama pull glm5:latest
...

Ollama는 모델 다운로드, VRAM 할당, 그리고 컨텍스트 관리 (context management)를 자동으로 처리합니다. 트레이드오프 (trade-off)로는, llama.cpp가 제공하는 배치 크기 (batch sizes), 스레드 수 (thread counts), 그리고 양자화 변체 (quantization variants)에 대한 세밀한 제어권을 잃게 된다는 점입니다. 튜닝 노브 (tuning knobs) 없이 로컬 추론 (local inference)을 원하는 대부분의 개발자에게는 이것이 적절한 선택입니다.

또한 Ollama를 지속적인 서버 (persistent server)로 실행하여 코딩 에이전트 (coding agents)를 연결할 수도 있습니다. Ollama는 localhost:11434에서 OpenAI 호환 API를 노출합니다:

ollama serve &

export OPENAI_API_BASE=http://localhost:11434/v1
...

코딩 에이전트를 위한 로컬 백엔드 (local backend)로 Ollama를 사용하는 방법에 대한 자세한 내용은 우리의 Claude Code를 Ollama로 실행하는 가이드를 참조하세요.

옵션 3: LM Studio (시각적 워크플로우)

Z.ai founder Jie Tang on X: GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone

LM Studio는 동일한 추론 엔진 (inference engine)을 시각적인 모델 브라우저, Hugging Face에서의 원클릭 다운로드, 그리고 내장된 채팅 인터페이스를 갖춘 데스크톱 애플리케이션으로 감싸서 제공합니다.

  1. lmstudio.ai에서 LM Studio를 다운로드합니다.
  2. 모델 브라우저에서 "GLM-5"를 검색합니다.
  3. 사용자의 하드웨어에 맞는 양자화 (quantization)를 선택합니다 (LM Studio는 VRAM 추정치를 보여줍니다).
  4. 다운로드를 진행하고 전송이 완료될 때까지 기다립니다.
  5. 모델을 로드하고 채팅을 시작하거나, API 액세스를 위해 로컬 서버를 활성화합니다.

LM Studio는 그래픽 기반의 워크플로우를 선호하고 llama.cpp의 CLI 유연성이 필요하지 않은 경우 적절한 선택입니다. 또한 양자화 변체 사이를 전환하는 것을 쉽게 만들어 주는데, 이는 품질 대 속도 (quality-vs-speed)의 트레이드오프를 실험할 때 유용합니다.

다른 오픈 모델을 사용한 LM Studio 설정 패턴에 대한 단계별 안내는 우리의 Qwen3 로컬 Mac 설정 가이드를 참조하세요.

어떤 양자화(Quant)를 선택해야 할까요?

양자화 결정은 단 하나의 질문으로 귀결됩니다: 메모리가 얼마나 있습니까?

사용자의 하드웨어권장 양자화 (Quant)이유
256GB Mac Studio / MacBook ProUD-IQ2_XXS (2-bit, 241GB)통합 메모리 (Unified Memory)에 적합함. 3–5 tok/s 예상
.........

💡 2-bit로 시작하세요. 만약 본격적인 개발 작업을 수행 중인데 출력 품질이 충분하지 않다면, Q4로 업그레이드하세요. 코딩 작업을 위해 GLM-5.2를 로컬에서 실행하는 대부분의 사용자는 2-bit가 "놀라울 정도로 쓸만하다"고 보고합니다. 이는 MoE (Mixture of Experts) 아키텍처 덕분에 양자화 오차(Quantization errors)가 비활성 전문가(Inactive experts)들 사이로 희석되기 때문입니다.

폐쇄형 프런티어 모델(Closed Frontier)과의 비교

솔직한 기대치를 설정해 봅시다. GLM-5.2는 Claude Opus 4.8이 아닙니다. GPT-5.5도 아닙니다. 실제 위치는 다음과 같습니다.

David Hendrickson on X: GLM-5.2 Status Update — available now for Coding Plan users, API and MIT open weights next week

강점:

약점:

  • 복잡한 아키텍처 추론 — LaurensBER는 이 모델이 UI/디자인 작업에는 뛰어나지만 복잡한 아키텍처 문제에는 어려움을 겪는다고 언급했습니다.
  • 아직 독립적으로 검증된 GLM-5.2 벤치마크가 존재하지 않습니다 — 모든 수치는 잠정적인 것으로 간주하십시오.
  • 2-bit 양자화 출력 품질은 양호하지만 프런티어급(Frontier-grade)은 아닙니다. 프로덕션 코드에는 인간의 검토가 필요할 것입니다.
  • 3–9 tok/s의 로컬 추론 속도는 클라우드 API보다 응답당 대기 시간이 더 길다는 것을 의미합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0