r/LocalLLaMA분석2026. 06. 26. 01:50

컨슈머급 하드웨어에서의 GLM 5.2 구동

요약

Unsloth 양자화 버전의 GLM 5.2 모델을 Threadripper Pro와 dual RTX 5090 기반의 컨슈머급 하드웨어에서 구동한 테스트 결과입니다. llama.cpp를 활용하여 최적화된 설정을 적용한 결과, 약 12t/s의 지속적인 추론 속도를 확인했습니다.

핵심 포인트

dual RTX 5090 및 Threadripper Pro 환경에서 GLM 5.2 구동
unsloth 양자화(GGUF) 모델을 통한 메모리 효율화
llama.cpp 최적화 옵션을 통한 12t/s 성능 달성
NUMA 및 특정 CUDA 옵션이 성능에 미치는 영향 분석

여전히 "컨슈머급"에 가까운 하드웨어에서 unsloth 양자화(quants) 버전의 GLM 5.2를 테스트해 보았습니다:
32C Zen5 Threadripper Pro 9975 WX, Asus WRX90E-SAGE-SE PCIe Gen5, 512GB DDR5 ECC RAM @ 4800MHz, dual RTX 5090.
이 머신은 RAM 가격 폭등(RAMpocalypse) 이전에 조립되었으며, 당시에는 오늘날의 터무니없는 가격에 비하면 그리 비싸지 않았습니다.
제가 사용한 양자화 모델은 unsloth/GLM-5.2-GGUF, UD-Q5_K_S (가중치 492GB)입니다.
저는 다음과 같은 명령어로 새로 컴파일된 (cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="120f" -DGGML_CUDA_FA_ALL_QUANTS=ON -DGGML_CUDA_FORCE_MMQ=ON -DGGML_SCHED_MAX_COPIES=1 -DGGML_CUDA_GRAPHS=ON -DGGML_CCACHE=OFF -DGGML_CUDA_ENABLE_UNIFIED_MEMORY=0; cmake --build build --config Release -j 64) llama.cpp를 사용했습니다:
CUDA_VISIBLE_DEVICES=0,1 numactl --physcpubind=0-31 --localalloc llama.cpp/build/bin/llama-server \ --model ./GLM-5.2-UD-Q5_K_S-00001-of-00012.gguf \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.01 \ --fit on --no-mmap --flash-attn on --ctx-size 32768 --no-warmup --prio 3 \ --threads 32 --threads-batch 32 --numa isolate --log-verbosity 4 --split-mode layer --direct-io --jinja
이를 통해 지속적으로 12t/s를 얻고 있습니다. 에이전트(agentic) 기능 없이 단순히 채팅만 시도해 보았습니다.
마지막 줄의 llama.cpp 옵션들을 생략하거나 사용하더라도 속도 변화가 거의 없으며, NUMA 관련 설정도 마찬가지입니다.
submitted by /u/phwlarxoc
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

컨슈머급 하드웨어에서의 GLM 5.2 구동

요약

핵심 포인트

댓글