EPYC 하이브리드 시스템 벤치마크 및 최적의 CPU
요약
EPYC 프로세서를 활용한 하이브리드 AI 추론 시스템의 성능 벤치마크 결과입니다. 다양한 EPYC 모델과 DDR5 메모리 설정에 따른 LLM 추론 속도(t/s)를 비교 분석했습니다.
핵심 포인트
- EPYC 9135와 RTX 5090 조합의 추론 성능 측정
- KV 캐시 크기 증가에 따른 토큰 생성 속도(TG t/s) 변화 확인
- CPU 전용 성능과 GPU 가속 성능 간의 비교 데이터 제공
- 메모리 대역폭 및 CCD 구성이 추론 성능에 미치는 영향 분석
마침내 저만의 세미 예산(semi-budget) 설정을 구축했지만, 모든 것이 예상대로 흘러가지는 않았습니다. 우선 EPYC 9555 QS를 구매했으나 사기를 당해 CPU가 불량 상태로 도착했습니다. 그 당시에는 2개의 CCD를 가진 임시용 9135를 구매할 여유밖에 없었습니다.
그래서 저는 제대로 된 CPU를 구매한 분들의 추론(inference) 수치에 관심이 있습니다. 모두가 16 CCD 이하의 코어 수가 최선의 선택(9175f)이라고 말하지만, 제 조사에 따르면 그 차이는 그리 크지 않았습니다. 그 외에도 어떤 분이 9684x(CPU 전용)에서 GLM-5.2를 벤치마크하여 12t/s를 기록했다는 댓글을 보았습니다. 제 설정의 CPU 전용 성능은 약 7t/s 정도였습니다. 또한 어떤 GitHub 스레드에서는 9555가 9355보다 더 나을 것이라는 이야기도 들었습니다.
https://openbenchmarking.org/ 에는 소규모 모델 벤치마크만 포함되어 있습니다.
제 설정:
768 DDR5 4800, EPYC 9135, RTX 5090
테스트 명령 (ik_llama 및 Ubergarm/Kimi-K2.6 Q4_X):
./llama-sweep-bench
--model Ubergarm/Kimi-K2.6-Q4_X-00001-of-00014.gguf
--no-mmap --merge-qkv
-mla 3 -amb 512
-b 4096 -ub 4096
-ctk f16 -ctv f16 -c 32000
-ngl 999 -ncmoe 999
--threads 16
--threads-batch 28
--warmup-batch
-n 128
수치: b 4096
| PP | TG | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |
|---|---|---|---|---|---|---|
| 4096 | 128 | 0 | 15.701 | 260.87 | 7.168 | 17.86 |
| 4096 | 128 | 4096 | 16.128 | 253.96 | 7.260 | 17.63 |
| 4096 | 128 | 8192 | 16.296 | 251.35 | 7.457 | 17.16 |
| 4096 | 128 | 16384 | 17.006 | 240.86 | 7.519 | 17.02 |
| 4096 | 128 | 32768 | 18.397 | 222.65 | 7.845 | 16.32 |
| 4096 | 128 | 65536 | 20.240 | 202.37 | 8.298 | 15.43 |
수치: b 8192
| PP | TG | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |
|---|---|---|---|---|---|---|
| 8192 | 128 | 0 | 18.564 | 441.28 | 7.081 | 18.08 |
| 8192 | 128 | 8192 | 20.323 | 403.10 | 7.405 | 17.29 |
| 8192 | 128 | 16384 | 21.115 | 387.96 | 7.525 | 17.01 |
이전 4090 수치:
| PP | TG | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |
| 4096 | 128 | 0 | 19.716 | 207.75 | 7.269 | 17.61 |
| 4096 | 128 | 4096 | 20.324 | 201.54 | 7.379 | 17.35 |
| 4096 | 128 | 8192 | 20.717 | 197.71 | 7.512 | 17.04 |
I've also found numbers for 6400 DDR5 and EPYC 9355:
PP TG N_KV T_PP s S_PP t/s T_TG s S_TG t/s
4096 128 0 14.985 273.35 6.326 20.24
4096 128 4096 15.316 267.44 6.453 19.83
4096 128 8192 15.662 261.52 6.614 19.35
4096 128 16384 16.399 249.77 6.719 19.05
4096 128 32768 17.656 231.98 6.989 18.31
4096 128 65536 20.666 198.20 8.107 15.79
Other setup for the same ik_llama and Kimi-K2.6 Q4_X: EPYC 9175F and RTX 6000 Pro:
For 17.9 to 21 t/s range, and PP cold in the 223 to 377 t/s
submitted by /u/iVoider
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기