컨슈머급 하드웨어에서의 GLM 5.2 구동
요약
Unsloth 양자화 버전의 GLM 5.2 모델을 Threadripper Pro와 dual RTX 5090 기반의 컨슈머급 하드웨어에서 구동한 테스트 결과입니다. llama.cpp를 활용하여 최적화된 설정을 적용한 결과, 약 12t/s의 지속적인 추론 속도를 확인했습니다.
핵심 포인트
- dual RTX 5090 및 Threadripper Pro 환경에서 GLM 5.2 구동
- unsloth 양자화(GGUF) 모델을 통한 메모리 효율화
- llama.cpp 최적화 옵션을 통한 12t/s 성능 달성
- NUMA 및 특정 CUDA 옵션이 성능에 미치는 영향 분석
여전히 "컨슈머급"에 가까운 하드웨어에서 unsloth 양자화(quants) 버전의 GLM 5.2를 테스트해 보았습니다:
32C Zen5 Threadripper Pro 9975 WX, Asus WRX90E-SAGE-SE PCIe Gen5, 512GB DDR5 ECC RAM @ 4800MHz, dual RTX 5090.
이 머신은 RAM 가격 폭등(RAMpocalypse) 이전에 조립되었으며, 당시에는 오늘날의 터무니없는 가격에 비하면 그리 비싸지 않았습니다.
제가 사용한 양자화 모델은 unsloth/GLM-5.2-GGUF, UD-Q5_K_S (가중치 492GB)입니다.
저는 다음과 같은 명령어로 새로 컴파일된 (cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="120f" -DGGML_CUDA_FA_ALL_QUANTS=ON -DGGML_CUDA_FORCE_MMQ=ON -DGGML_SCHED_MAX_COPIES=1 -DGGML_CUDA_GRAPHS=ON -DGGML_CCACHE=OFF -DGGML_CUDA_ENABLE_UNIFIED_MEMORY=0; cmake --build build --config Release -j 64) llama.cpp를 사용했습니다:
CUDA_VISIBLE_DEVICES=0,1 numactl --physcpubind=0-31 --localalloc llama.cpp/build/bin/llama-server \ --model ./GLM-5.2-UD-Q5_K_S-00001-of-00012.gguf \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.01 \ --fit on --no-mmap --flash-attn on --ctx-size 32768 --no-warmup --prio 3 \ --threads 32 --threads-batch 32 --numa isolate --log-verbosity 4 --split-mode layer --direct-io --jinja
이를 통해 지속적으로 12t/s를 얻고 있습니다. 에이전트(agentic) 기능 없이 단순히 채팅만 시도해 보았습니다.
마지막 줄의 llama.cpp 옵션들을 생략하거나 사용하더라도 속도 변화가 거의 없으며, NUMA 관련 설정도 마찬가지입니다.
submitted by /u/phwlarxoc
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기