r/LocalLLaMA분석2026. 06. 22. 23:26

llama.cpp에서 실행되는 GLM-5.2 UD-IQ1_M — 5090 + 3090 Ti 속도 테스트 (~ 8k 컨텍스트에서 prefill

요약

llama.cpp 환경에서 GLM-5.2 모델을 RTX 5090과 3090 Ti 조합으로 실행한 성능 테스트 결과입니다. 다양한 컨텍스트 길이에 따른 프리필(Prefill) 속도와 디코드(Decode) 속도를 상세히 측정하였습니다.

핵심 포인트

RTX 5090 및 3090 Ti 멀티 GPU 환경에서의 성능 측정
컨텍스트 길이에 따른 프리필 속도 저하 양상 확인
UD-IQ1_M 양자화 모델을 사용한 효율적인 추론 테스트
60k 컨텍스트 기준 약 9.37 t/s의 디코드 속도 기록

llama.cpp에서 실행되는 GLM-5.2의 속도 테스트 수치를 공유합니다.

설정 (Setup):

모델: unsloth/GLM-5.2-GGUF, UD-IQ1_M 양자화 (quant)
GPU: RTX 5090 + RTX 3090 Ti
사용된 메모리: 186 GB DDR5
운영체제: Debian 13
CUDA: 13.3
컨텍스트 (context): 128k, q8_0 KV 캐시 (KV cache)

프리필 (Prefill, 프롬프트 처리):

n_tokens (토큰 수) | tokens/s (초당 토큰 수)

8,201 | 579.75
16,393 | 522.28
24,585 | 468.21
32,777 | 422.61
40,969 | 384.43
49,161 | 351.90
57,353 | 324.48

디코드 (Decode, 생성):
580개 이상의 디코드된 토큰이 생성되는 동안 약 10.6 t/s로 안정적으로 유지됩니다. 60k 컨텍스트에서는 9.37 t/s를 기록했습니다.

시작 명령 (Start command):
llama-server \ -m GLM-5.2-UD-IQ1_M.gguf \ -fa 1 \ --fit off \ --tensor-split 100,0 \ --override-tensor "blk.[0-3].(ffn_(up|down|gate)exps.weight)=CUDA0,blk.([4-9]|10).(ffn(up|down|gate)_exps.weight)=CUDA1,blk.11.(ffn_down_exps.weight)=CUDA1" \ --main-gpu 0 \ --n-cpu-moe 99 \ --no-mmap \ --mlock \ --cpu-range 0-23 \ --cpu-range-batch 0-23 \ --ctx-size 131072 \ --parallel 1 \ --jinja --no-warmup --threads 24 --numa isolate \ --batch-size 8192 --ubatch-size 8192 --threads-batch 24 \ -cms 24000 \ -ctxcp 5 \ --cache-type-k q8_0 --cache-type-v q8_0 \ --alias glm.5.2 \ --host 0.0.0.0 --port 8080

제출자: /u/Shoddy_Bed3240
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp에서 실행되는 GLM-5.2 UD-IQ1_M — 5090 + 3090 Ti 속도 테스트 (~ 8k 컨텍스트에서 prefill

요약

핵심 포인트

댓글