Dual DGX Sparks 성능: 단일 1M 토큰 시 40tk/s, 합계 350tk/s - Deepseek V4 Flash (vs RTX
요약
DeepSeek V4 Flash 모델을 두 대의 DGX Sparks에서 실행하여 높은 추론 성능을 확보하는 방법을 공유합니다. ConnectX-7을 활용한 병렬 실행을 통해 단일 요청 시 40tk/s, 합계 350tk/s의 속도를 달성했습니다.
핵심 포인트
- Dual DGX Sparks 구성 시 FP8 지원으로 높은 추론 속도 확보
- ConnectX-7을 통한 200G/s 대역폭 확보가 핵심
- RTX Pro 6000 및 M2 Ultra 대비 우수한 성능 입증
- 대규모 MoE 모델의 에이전트 활용을 위한 최적화 레시피 제공
먼저 Aiden/Antirez 및 Nvidia 커뮤니티 스레드의 천재분들께 경의를 표합니다. 저는 단지 그분들의 작업물을 바탕으로 Claude 스타일의 영감을 얻었을 뿐입니다.
그건 그렇고, 에이전트(Agent) 용도로 대규모 MoE (Mixture of Experts) 모델을 두 대의 DGX Sparks에서 합리적인 속도로 실행하는 방법에 대한 레시피, 학습 내용 및 현재까지의 벤치마크를 공유하고자 합니다:
https://github.com/elsung/dgx-spark-deepseek-v4-flash
여기서 핵심은 우리가 필요로 하는 속도를 실제로 얻으려면 2대의 DGX Sparks가 필요하며, ConnectX-7을 통해 200G/s 속도를 내기 위해 해당 단일 케이블에 180달러를 지불해야 한다는 점입니다.
하지만, 최첨단(Frontier) 모델들과 어깨를 나란히 하는 모델을 약 40tk/s(tokens per second)로 실행할 수 있다는 것은 매우 흥어로운 일이며, 저와 다른 많은 이들이 아마도 오랫동안 갈망하고 꿈꿔왔던 일일 것입니다.
또한 RTX Pro 6000 및 Mac M2 Ultra 192GB와의 벤치마크 결과도 포함했습니다.
요약 (TLDR):
- Dual DGX - FP8 ~40 tk/s
- Single DGX - FP8 ~14 tk/s
- RTX Pro 6000 - Q2 ~46 tk/s
- M2 Ultra 192GB - Q2 ~29 tk/s
2x DGX가 승리했습니다. 왜냐하면 FP8을 지원하여 빠르고 병렬 실행이 가능하기 때문입니다.
각각 256k 컨텍스트(Context)를 가진 32개의 요청을 실행할 때 최대 350 tk/s의 합계(Aggregate) 속도를 낼 수 있습니다.
이 정보가 다른 분들에게 유용하기를 바랍니다~
출처 링크 / 스레드 (진행 중인 토론은 여기서 확인하세요)
Antirez 및 그의 멋진 작업:
https://github.com/antirez/ds4
Aiden 스레드 및 Nvidia 커뮤니티 스레드를 통해 찾은 DGX 스레드:
https://forums.developer.nvidia.com/t/deepseek-v4-flash-aiden-recipe-from-reddit-1m-token-session-operational-cuda-12-1-tailored-for-dgx-spark-gb10/372268/61
submitted by /u/elsung to r/LocalLLaMA
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기