Reddit요약2026. 05. 17. 14:04

집에서 (심지어 더 빠른) DeepSeek V4 Pro를 사용 중입니다

요약

작성자는 개인 하드웨어(Epyc 9374F + RTX PRO 6000 Max-Q) 환경에서 DeepSeek V4 Pro 모델을 성공적으로 구동하고 성능 테스트를 진행했습니다. ktransformers 라이브러리를 사용하여 NUMA 및 코어 수 등 시스템 옵션을 조정하며, llama-benchy 벤치마크를 통해 컨텍스트 깊이(context depth) 변화에 따른 모델의 처리 속도와 지연 시간을 측정했습니다. 결과적으로 컨텍스트 깊이가 증가할수록 전반적인 처리 시간과 메모리 사용량이 크게 늘어나는 것을 확인했습니다.

핵심 포인트

DeepSeek V4 Pro를 개인 워크스테이션 환경에서 성공적으로 로컬 구동함.
ktransformers 라이브러리를 활용하여 모델 실행 및 시스템 최적화(NUMA, 코어 수 조정)가 가능함.
llama-benchy 벤치마크를 통해 컨텍스트 깊이별 성능 변화를 정량적으로 측정함.
컨텍스트 깊이가 증가할수록 (Depth 0 -> Depth 8192) 처리 시간 및 지연 시간이 급격히 증가하는 경향을 보임.

며칠 전 저는 집에서 사용하는 DeepSeek V4 Pro에 대해 게시물을 올렸는데, 이제 업데이트를 할 시간입니다. 어제 저는 마침내 ktransformers (sglang + kt-kernel)에서 이 모델을 실행하는 데 성공했습니다. 저는 DeepSeek V4 Flash를 위한 튜토리얼을 따랐고, 제 하드웨어(Epyc 9374F + RTX PRO 6000 Max-Q)에 맞춰 몇 가지 옵션(NUMA, 코어 수)을 조정했습니다. 그런 다음 성능을 확인하기 위해 컨텍스트 깊이(context depth)를 늘려가며 llama-benchy를 실행했습니다. 결과는 다음과 같습니다:

Depth 0:

| model                       |   test |          t/s |    peak t/s |       ttfr (ms) |    est_ppt (ms) |   e2e_ttft (ms) |
|:----------------------------|-------:|-------------:|------------:|----------------:|----------------:|----------------:|
| deepseek-ai/DeepSeek-V4-Pro |  pp512 | 39.76 ± 0.00 |             | 12878.44 ± 0.00 | 12877.59 ± 0.00 | 12878.44 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |   tg32 |  7.54 ± 0.00 | 8.00 ± 0.00 |                 |                 |                 |

Depth 2048:

| model                       |          test |          t/s |    peak t/s |       ttfr (ms) |    est_ppt (ms) |   e2e_ttft (ms) |
|:----------------------------|--------------:|-------------:|------------:|----------------:|----------------:|----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d2048 | 45.13 ± 0.00 |             | 56726.85 ± 0.00 | 56725.93 ± 0.00 | 56726.85 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d2048 |  7.32 ± 0.00 | 8.00 ± 0.00 |                 |                 |                 |

Depth 4096:

| model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) |
|:----------------------------|--------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d4096 | 45.75 ± 0.00 | | 100729.28 ± 0.00 | 100728.46 ± 0.00 | 100729.28 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro | tg32 @ d4096 | 7.29 ± 0.00 | 8.00 ± 0.00 | | | |

Depth 8192:

| model                       |          test |          t/s |    peak t/s |        ttfr (ms) |     est_ppt (ms) |    e2e_ttft (ms) |
|:----------------------------|--------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d8192 | 45.97 ± 0.00 |             | 189354.94 ± 0.00 | 189354.03 ± 0.00 | 189354.94 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d8192 |  7.25 ± 0.00 | 8.00 ± 0.00 |                  |                  |                  |

Depth 16384:

| model                       |           test |          t/s |    peak t/s |        ttfr (ms) |     est_ppt (ms) |    e2e_ttft (ms) |
|:----------------------------|---------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d16384 | 46.16 ± 0.00 |             | 365997.22 ± 0.00 | 365996.26 ± 0.00 | 365997.22 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d16384 |  7.17 ± 0.00 | 8.00 ± 0.00 |                  |                  |                  |

Depth 32768:

| model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) |
|:----------------------------|---------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d32768 | 46.18 ± 0.00 | | 720687.13 ± 0.00 | 720685.67 ± 0.00 | 720687.13 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro | tg32 @ d32768 | 7.07 ± 0.00 | 8.00 ± 0.00 | | | |

Depth 65536:

| model                       |           test |          t/s |    peak t/s |         ttfr (ms) |      est_ppt (ms) |     e2e_ttft (ms) |
|:----------------------------|---------------:|-------------:|------------:|------------------:|------------------:|------------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d65536 | 46.09 ± 0.00 |             | 1433019.29 ± 0.00 | 1433016.42 ± 0.00 | 1433019.29 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d65536 |  6.80 ± 0.00 | 7.00 ± 0.00 |                   |                   |                   |

Depth 131072:

| model                       |            test |          t/s |    peak t/s |         ttfr (ms) |      est_ppt (ms) |     e2e_ttft (ms) |
|:----------------------------|----------------:|-------------:|------------:|------------------:|------------------:|------------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d131072 | 45.81 ± 0.00 |             | 2872297.51 ± 0.00 | 2872296.30 ± 0.00 | 2872297.51 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d131072 |  6.38 ± 0.00 | 7.00 ± 0.00 |                   |                   |                   |

64k 테스트(20분 이상 소요) 동안 sglang이 요청 처리를 완료했음에도 불구하고 llama-benchy가 결과를 보고하지 않아 테스트를 중단했습니다. 잘 모르겠지만, 일종의 타임아웃 (timeout)이 발생하고 있는 것 같습니다. llama-benchy가 warmup (워밍업) 단계에도 단순히 depth (깊이) 설정을 적용하는 것으로 보입니다. 즉, 64k의 컨텍스트 (context)를 처리하고, warmup을 수행한 다음, 실제 테스트를 수행하기 위해 64k의 컨텍스트를 다시 처리했습니다. ~~그래서 --no-warmup이 구원투수로 등장했습니다.~~ 하지만 그렇게 간단하지 않았습니다. 여전히 컨텍스트를 두 번 처리했습니다.

업데이트: 해결했습니다. --no-warmup --no-adapt-prompt를 사용하니 depth 컨텍스트가 한 번만 처리됩니다.

이 모든 과정은 변환 (conversion) 없이 원본 모델 파일을 그대로 사용하여 실행됩니다.

GPU VRAM 사용량: 90815MiB / 97887MiB
GPU 전력 사용량: PP (Pipeline Parallelism) 중 ∼100W, TG (Time to First Token) 중 ∼150W
RAM 사용량: 907.5GB / 1152GB
CPU+MB 전력 사용량: ∼400W

AI 자동 생성 콘텐츠

원문 바로가기

집에서 (심지어 더 빠른) DeepSeek V4 Pro를 사용 중입니다

요약

핵심 포인트

댓글