Hopper 시스템에서 DeepSeek v4 Flash로 초당 약 200 토큰(tok/s)을 달성하는 몇 가지 팁
요약
Hopper 시스템에서 DeepSeek v4 Flash 모델을 사용하여 초당 약 200 토큰의 속도를 달성하는 최적화 방법을 소개합니다. vLLM의 MTP 코드를 패치하고 Canada-Quant의 양자화 모델을 활용하여 효율성을 높였습니다.
핵심 포인트
- vLLM에서 4개 스레드 실행 시 최대 400 tok/s 달성 가능
- Canada-Quant 양자화 모델 사용을 통한 최적화
- vLLM의 MTP 코드 패치를 통한 성능 향상
- Hopper 시스템 환경에서 약 193 tok/s 구현
저의 로컬 Hermes Agent 설정을 위해 더 똑똑한 모델이 필요했고, 그래서 DeepSeek v4 Flash로 옮겼습니다. 우선 가장 먼저 말씀드리자면: vLLM에서 4개의 동시 스레드(concurrent threads)를 실행했을 때, 약 400 tok/s를 달성할 수 있습니다. 400 x 60 x 60 x 24 x 30은 한 달에 약 10억(1B) 토큰입니다!!! DSv4Flash의 비용은 100만 토큰당 $0.1966입니다... 세상에... 약 200유로 상당의 토큰을 생성하는 데 전기료로 약 350유로가 듭니다. 야호! 어쨌든, 돈을 덜 잃기 위해 DSv4Flash를 최적화하는 데 시간을 좀 썼습니다. Canada-Quant의 양자화(quants) 모델을 사용하고 vLLM의 MTP 코드를 패치함으로써, Hopper 시스템에서 193 tok/s를 달성했습니다. 자세한 내용은 블로그 포스트에 있습니다. /u/Reddactor가 r/LocalLLaMA에 게시함 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기