Reddit요약2026. 06. 15. 10:50

Dual DGX Sparks 성능: 단일 1M 토큰 시 40tk/s, 합계 350tk/s - Deepseek V4 Flash (vs RTX

요약

DeepSeek V4 Flash 모델을 두 대의 DGX Sparks에서 실행하여 높은 추론 성능을 확보하는 방법을 공유합니다. ConnectX-7을 활용한 병렬 실행을 통해 단일 요청 시 40tk/s, 합계 350tk/s의 속도를 달성했습니다.

핵심 포인트

Dual DGX Sparks 구성 시 FP8 지원으로 높은 추론 속도 확보
ConnectX-7을 통한 200G/s 대역폭 확보가 핵심
RTX Pro 6000 및 M2 Ultra 대비 우수한 성능 입증
대규모 MoE 모델의 에이전트 활용을 위한 최적화 레시피 제공

먼저 Aiden/Antirez 및 Nvidia 커뮤니티 스레드의 천재분들께 경의를 표합니다. 저는 단지 그분들의 작업물을 바탕으로 Claude 스타일의 영감을 얻었을 뿐입니다.

그건 그렇고, 에이전트(Agent) 용도로 대규모 MoE (Mixture of Experts) 모델을 두 대의 DGX Sparks에서 합리적인 속도로 실행하는 방법에 대한 레시피, 학습 내용 및 현재까지의 벤치마크를 공유하고자 합니다:
https://github.com/elsung/dgx-spark-deepseek-v4-flash

여기서 핵심은 우리가 필요로 하는 속도를 실제로 얻으려면 2대의 DGX Sparks가 필요하며, ConnectX-7을 통해 200G/s 속도를 내기 위해 해당 단일 케이블에 180달러를 지불해야 한다는 점입니다.

하지만, 최첨단(Frontier) 모델들과 어깨를 나란히 하는 모델을 약 40tk/s(tokens per second)로 실행할 수 있다는 것은 매우 흥어로운 일이며, 저와 다른 많은 이들이 아마도 오랫동안 갈망하고 꿈꿔왔던 일일 것입니다.

또한 RTX Pro 6000 및 Mac M2 Ultra 192GB와의 벤치마크 결과도 포함했습니다.

요약 (TLDR):

Dual DGX - FP8 ~40 tk/s
Single DGX - FP8 ~14 tk/s
RTX Pro 6000 - Q2 ~46 tk/s
M2 Ultra 192GB - Q2 ~29 tk/s

2x DGX가 승리했습니다. 왜냐하면 FP8을 지원하여 빠르고 병렬 실행이 가능하기 때문입니다.
각각 256k 컨텍스트(Context)를 가진 32개의 요청을 실행할 때 최대 350 tk/s의 합계(Aggregate) 속도를 낼 수 있습니다.

이 정보가 다른 분들에게 유용하기를 바랍니다~

출처 링크 / 스레드 (진행 중인 토론은 여기서 확인하세요)

Antirez 및 그의 멋진 작업:
https://github.com/antirez/ds4

Aiden 스레드 및 Nvidia 커뮤니티 스레드를 통해 찾은 DGX 스레드:
https://forums.developer.nvidia.com/t/deepseek-v4-flash-aiden-recipe-from-reddit-1m-token-session-operational-cuda-12-1-tailored-for-dgx-spark-gb10/372268/61

submitted by /u/elsung to r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Dual DGX Sparks 성능: 단일 1M 토큰 시 40tk/s, 합계 350tk/s - Deepseek V4 Flash (vs RTX

요약

핵심 포인트

댓글