본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 27. 11:57

DeepSeek V4 Flash - 네이티브 정밀도 (FP4 + FP8) - 2x RTX Pro 6000 GPU + 256 GB DDR5

요약

제한된 하드웨어 자원(2x RTX Pro 6000, 256GB RAM) 환경에서 DeepSeek V4 Flash 모델을 FP4/FP8 네이티브 정밀도로 최적화하여 실행하는 방법을 다룹니다. KTransformers와 SGLang을 활용해 GPU와 CPU 메모리를 효율적으로 배분하는 하이브리드 추론 설정 및 벤치마크 결과를 공유합니다.

핵심 포인트

  • FP4 및 FP8 네이티브 정밀도를 활용한 메모리 효율 극대화
  • KTransformers와 SGLang 포크를 이용한 GPU/CPU 하이브리드 추론 구현
  • MoE 레이어 전문가 수 및 GPU 메모리 사용률 최적화 플래그 설정
  • SWE-ZERO 벤치마크를 통한 실제 추론 성능(TTFT, Decode 속도) 검증
  • DeepSeek V4 Flash - 네이티브 정밀도 (Native Precision) (FP4 + FP8)
  • 2x RTX Pro 6000 GPU + 256 GB DDR5 RAM에 적합
  • KTransformers 사용: GPU/CPU 메모리 추론을 위한 SGLang의 KVCache-AI 포크(fork)

저는 가능한 최대의 성능을 짜내기 위해 자원이 제한된 시스템에서 애플리케이션을 실행하는 것에 다소 집착하는 경향이 있습니다. 이는

다음은 KTransformers SGLang 최적화 주요 플래그(flags)입니다:

  • 컨텍스트 길이 (Context Length): 1048576
  • 총 토큰 수 (Total Number of Tokens): 1048576
  • 청크 단위 프리필 크기 (Chunked Prefill Size): 16384
  • 최대 프리필 토큰 (Max Prefill Tokens): 16384
  • GPU 프리필 토큰 임계값 (GPU Prefill Token Threshold): 1024
  • GPU 메모리 사용률 (GPU Memory Utilization): 87%
  • GPU 상의 MoE 레이어당 전문가 수 (Number of Experts per MoE Layer on GPU): 134 / 256
  • 최대 실행 요청 수 (Max Running Requests): 256
  • CUDA Graph 최대 배치 크기 (CUDA Graph Max Batch Size): 256
  • CUDA Graph 배치 크기 (CUDA Graph Batch Sizes): 1 2 4 8 16 32 64 128 256
  • 사용 가능한 GPU 메모리 (Available GPU Memory): 20.81GB (이보다 적으면 에이전트 기반 코딩(agentic coding)을 수행하기에 너무 빠듯했습니다)

아래는 10개의 동시 요청, 약 8k의 입력 토큰 및 약 1k의 출력 토큰 조건에서 100개의 프롬프트를 대상으로 진행한 AlienKevin/SWE-ZERO-12M-trajectories 벤치마크 결과입니다. 최악의 시나리오를 가정하기 위해 Radix 및 Chunked Prefix Cache는 모두 비활성화되었습니다:

  • 프리필 평균 배치 토큰 (Prefill Mean Batch Tokens): 35756.93 tok/sec
  • 프리필 중앙값 배치 토큰 (Prefill Median Batch Tokens): 652.90 tok/sec
  • TTFT 평균 (TTFT Mean): 20.698s
  • TTFT 중앙값 (TTFT Median): 12.714s
  • 디코드 평균 배치 출력 토큰 (Decode Mean Batch Output Tokens): 27.39 tok/sec
  • 디코드 중앙값 배치 출력 토큰 (Decode Median Batch Output Tokens): 20.63 tok/sec
  • 사용된 CPU 메모리 (Utilized CPU memory): ~200 GB

이 하이브리드 설정에서 도구 호출(tool calls) 및 벤치마크를 실행할 때 적절한 균형을 맞추기 위한 GPU 상의 MoE 레이어당 전문가 수 계산 방법론, 최대 토큰 수, 그리고 GPU 메모리 사용률을 포함한 더 상세한 기술 글이 이어질 예정입니다.

이 결과가 여러분의 환경이나 다른 GPU, 그리고 현재 및 미래의 모델에서도 재현 가능하기를 바랍니다. 여러분에게 어떻게 작동하는지 알려주세요! 저의 향후 계획에는 MiniMax M3, GLM-5.2, 그리고 Kimi K2.7-Code에 대한 GPU/CPU 메모리 추론 테스트가 포함되어 있습니다.

2x RTX Pro 6000 GPU + 256 GB RAM에서 DeepSeek V4 Flash 네이티브 혼합 정밀도(mixed precision)를 구현하는 데 사용된 모든 리소스 링크는 후속 포스트에서 확인할 수 있습니다.
[IMG:1]

AI 자동 생성 콘텐츠

본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0