사람들이 실제로 운영 중인 몇 가지 실제 설정 간의 로컬 추론 속도 비교 (3090 vs 5090 vs dual 6000)
요약
RTX 3090, 5090, Dual RTX 6000 등 다양한 하드웨어 구성에 따른 로컬 LLM 추론 속도를 비교 분석합니다. 각 GPU 설정별 토큰 생성 속도와 프롬프트 처리 성능을 통해 하드웨어 계층별 실질적인 성능 차이를 보여줍니다.
핵심 포인트
- RTX 3090은 Qwen 27B 모델 실행 시 약 50 tok/s의 준수한 속도 제공
- RTX 5090은 튜닝된 설정에서 평균 약 140 tok/s의 높은 성능 기록
- Dual RTX 6000은 속도 향상보다 더 큰 모델 구동에 유리함
- 가성비 측면에서는 구형 RTX 3090이 여전히 매력적인 선택지임
각 하드웨어 계층에서 무엇이 현실적인지 파악하기 위해, 최근 사람들이 운영 중이라고 보고한 몇 가지 서로 다른 로컬 리그(rigs)의 토큰 속도(token rates)를 모아보았습니다 (출처: discord 그룹)
- 단일 3090에서 Qwen3.6 27B 실행 (Q4/Q8 MTP, 128k ctx): 추론(inference) ~50 tok/s, 프롬프트 처리(prompt processing) ~950 tok/s
- 5090에서 Qwen3.6 27B 실행 (Q6 MTP, 튜닝된 캐시/배치 설정): 평균 ~140 tok/s
- dual RTX 6000 워크스테이션 카드에서 DeepSeek V4 Flash 실행 (vLLM, 전체 컨텍스트 + KV 캐시를 위한 여유 공간): ~80-100 tok/s
3090 설정이 여전히 일상적인 코딩 작업에 매우 유용하다는 점이 흥미롭습니다 (적절히 냉각되고 청소되었다는 전제하에, 또한 GPU 칩에 새로운 서멀 페이스트를 도포해야 합니다). 이는 상위 엔드 리그(higher end rigs) 비용의 아주 일부만으로 가능하며, 차이점은 순수한 사용 불가능성보다는 작업의 범위(작은 요청 vs 프로젝트 전체를 맡기는 것)에 더 가까운 것 같습니다. dual 6000으로의 점프는 반드시 더 많은 속도를 보장하기보다는 훨씬 더 큰 모델을 사용할 수 있게 해줍니다.
하지만 다시 생각해보면 가격 또한 너무 엉망이라 구형 3090이 더 합리적으로 보입니다.
제출자: /u/UsedMorning9886
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기