본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 17. 14:04

집에서 (심지어 더 빠른) DeepSeek V4 Pro를 사용 중입니다

요약

작성자는 개인 하드웨어(Epyc 9374F + RTX PRO 6000 Max-Q) 환경에서 DeepSeek V4 Pro 모델을 성공적으로 구동하고 성능 테스트를 진행했습니다. ktransformers 라이브러리를 사용하여 NUMA 및 코어 수 등 시스템 옵션을 조정하며, llama-benchy 벤치마크를 통해 컨텍스트 깊이(context depth) 변화에 따른 모델의 처리 속도와 지연 시간을 측정했습니다. 결과적으로 컨텍스트 깊이가 증가할수록 전반적인 처리 시간과 메모리 사용량이 크게 늘어나는 것을 확인했습니다.

핵심 포인트

  • DeepSeek V4 Pro를 개인 워크스테이션 환경에서 성공적으로 로컬 구동함.
  • ktransformers 라이브러리를 활용하여 모델 실행 및 시스템 최적화(NUMA, 코어 수 조정)가 가능함.
  • llama-benchy 벤치마크를 통해 컨텍스트 깊이별 성능 변화를 정량적으로 측정함.
  • 컨텍스트 깊이가 증가할수록 (Depth 0 -> Depth 8192) 처리 시간 및 지연 시간이 급격히 증가하는 경향을 보임.

며칠 전 저는 집에서 사용하는 DeepSeek V4 Pro에 대해 게시물을 올렸는데, 이제 업데이트를 할 시간입니다. 어제 저는 마침내 ktransformers (sglang + kt-kernel)에서 이 모델을 실행하는 데 성공했습니다. 저는 DeepSeek V4 Flash를 위한 튜토리얼을 따랐고, 제 하드웨어(Epyc 9374F + RTX PRO 6000 Max-Q)에 맞춰 몇 가지 옵션(NUMA, 코어 수)을 조정했습니다. 그런 다음 성능을 확인하기 위해 컨텍스트 깊이(context depth)를 늘려가며 llama-benchy를 실행했습니다. 결과는 다음과 같습니다:

Depth 0:

| model                       |   test |          t/s |    peak t/s |       ttfr (ms) |    est_ppt (ms) |   e2e_ttft (ms) |
|:----------------------------|-------:|-------------:|------------:|----------------:|----------------:|----------------:|
| deepseek-ai/DeepSeek-V4-Pro |  pp512 | 39.76 ± 0.00 |             | 12878.44 ± 0.00 | 12877.59 ± 0.00 | 12878.44 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |   tg32 |  7.54 ± 0.00 | 8.00 ± 0.00 |                 |                 |                 |

Depth 2048:

| model                       |          test |          t/s |    peak t/s |       ttfr (ms) |    est_ppt (ms) |   e2e_ttft (ms) |
|:----------------------------|--------------:|-------------:|------------:|----------------:|----------------:|----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d2048 | 45.13 ± 0.00 |             | 56726.85 ± 0.00 | 56725.93 ± 0.00 | 56726.85 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d2048 |  7.32 ± 0.00 | 8.00 ± 0.00 |                 |                 |                 |

Depth 4096:

| model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) |
|:----------------------------|--------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d4096 | 45.75 ± 0.00 | | 100729.28 ± 0.00 | 100728.46 ± 0.00 | 100729.28 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro | tg32 @ d4096 | 7.29 ± 0.00 | 8.00 ± 0.00 | | | |

Depth 8192:

| model                       |          test |          t/s |    peak t/s |        ttfr (ms) |     est_ppt (ms) |    e2e_ttft (ms) |
|:----------------------------|--------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d8192 | 45.97 ± 0.00 |             | 189354.94 ± 0.00 | 189354.03 ± 0.00 | 189354.94 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d8192 |  7.25 ± 0.00 | 8.00 ± 0.00 |                  |                  |                  |

Depth 16384:

| model                       |           test |          t/s |    peak t/s |        ttfr (ms) |     est_ppt (ms) |    e2e_ttft (ms) |
|:----------------------------|---------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d16384 | 46.16 ± 0.00 |             | 365997.22 ± 0.00 | 365996.26 ± 0.00 | 365997.22 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d16384 |  7.17 ± 0.00 | 8.00 ± 0.00 |                  |                  |                  |

Depth 32768:

Depth 32768:

| model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) |
|:----------------------------|---------------:|-------------:|------------:|-----------------:|-----------------:|-----------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d32768 | 46.18 ± 0.00 | | 720687.13 ± 0.00 | 720685.67 ± 0.00 | 720687.13 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro | tg32 @ d32768 | 7.07 ± 0.00 | 8.00 ± 0.00 | | | |

Depth 65536:

| model                       |           test |          t/s |    peak t/s |         ttfr (ms) |      est_ppt (ms) |     e2e_ttft (ms) |
|:----------------------------|---------------:|-------------:|------------:|------------------:|------------------:|------------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d65536 | 46.09 ± 0.00 |             | 1433019.29 ± 0.00 | 1433016.42 ± 0.00 | 1433019.29 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d65536 |  6.80 ± 0.00 | 7.00 ± 0.00 |                   |                   |                   |

Depth 131072:

| model                       |            test |          t/s |    peak t/s |         ttfr (ms) |      est_ppt (ms) |     e2e_ttft (ms) |
|:----------------------------|----------------:|-------------:|------------:|------------------:|------------------:|------------------:|
| deepseek-ai/DeepSeek-V4-Pro | pp512 @ d131072 | 45.81 ± 0.00 |             | 2872297.51 ± 0.00 | 2872296.30 ± 0.00 | 2872297.51 ± 0.00 |
| deepseek-ai/DeepSeek-V4-Pro |  tg32 @ d131072 |  6.38 ± 0.00 | 7.00 ± 0.00 |                   |                   |                   |

64k 테스트(20분 이상 소요) 동안 sglang이 요청 처리를 완료했음에도 불구하고 llama-benchy가 결과를 보고하지 않아 테스트를 중단했습니다. 잘 모르겠지만, 일종의 타임아웃 (timeout)이 발생하고 있는 것 같습니다. llama-benchy가 warmup (워밍업) 단계에도 단순히 depth (깊이) 설정을 적용하는 것으로 보입니다. 즉, 64k의 컨텍스트 (context)를 처리하고, warmup을 수행한 다음, 실제 테스트를 수행하기 위해 64k의 컨텍스트를 다시 처리했습니다. 그래서 --no-warmup이 구원투수로 등장했습니다. 하지만 그렇게 간단하지 않았습니다. 여전히 컨텍스트를 두 번 처리했습니다.

업데이트: 해결했습니다. --no-warmup --no-adapt-prompt를 사용하니 depth 컨텍스트가 한 번만 처리됩니다.

이 모든 과정은 변환 (conversion) 없이 원본 모델 파일을 그대로 사용하여 실행됩니다.

  • GPU VRAM 사용량: 90815MiB / 97887MiB
  • GPU 전력 사용량: PP (Pipeline Parallelism) 중 ∼100W, TG (Time to First Token) 중 ∼150W
  • RAM 사용량: 907.5GB / 1152GB
  • CPU+MB 전력 사용량: ∼400W

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0