사람들이 실제로 운영 중인 몇 가지 실제 설정 간의 로컬 추론 속도 비교 (3090 vs 5090 vs dual 6000)

각 하드웨어 계층에서 무엇이 현실적인지 파악하기 위해, 최근 사람들이 운영 중이라고 보고한 몇 가지 서로 다른 로컬 리그(rigs)의 토큰 속도(token rates)를 모아보았습니다 (출처: discord 그룹)

단일 3090에서 Qwen3.6 27B 실행 (Q4/Q8 MTP, 128k ctx): 추론(inference) ~50 tok/s, 프롬프트 처리(prompt processing) ~950 tok/s
5090에서 Qwen3.6 27B 실행 (Q6 MTP, 튜닝된 캐시/배치 설정): 평균 ~140 tok/s
dual RTX 6000 워크스테이션 카드에서 DeepSeek V4 Flash 실행 (vLLM, 전체 컨텍스트 + KV 캐시를 위한 여유 공간): ~80-100 tok/s

3090 설정이 여전히 일상적인 코딩 작업에 매우 유용하다는 점이 흥미롭습니다 (적절히 냉각되고 청소되었다는 전제하에, 또한 GPU 칩에 새로운 서멀 페이스트를 도포해야 합니다). 이는 상위 엔드 리그(higher end rigs) 비용의 아주 일부만으로 가능하며, 차이점은 순수한 사용 불가능성보다는 작업의 범위(작은 요청 vs 프로젝트 전체를 맡기는 것)에 더 가까운 것 같습니다. dual 6000으로의 점프는 반드시 더 많은 속도를 보장하기보다는 훨씬 더 큰 모델을 사용할 수 있게 해줍니다.

하지만 다시 생각해보면 가격 또한 너무 엉망이라 구형 3090이 더 합리적으로 보입니다.

제출자: /u/UsedMorning9886
[link] [comments]

Insights

사람들이 실제로 운영 중인 몇 가지 실제 설정 간의 로컬 추론 속도 비교 (3090 vs 5090 vs dual 6000)

요약

핵심 포인트

댓글

FEX 2607, 아직 출시되지 않은 ARM 256-bit SVE2 하드웨어 최적화

2026년 Claude Code 유출 사건 — 유출된 512,000줄의 소스 코드가 실제로 밝혀낸 것

왜 당신의 LLM은 계속해서 쓰레기 같은 JSON을 반환하는가 (그리고 이를 멈추는 방법)

n8n Summarization Chain 노드: 워크플로우에서 긴 문서 및 웹 페이지 요약하기 [무료 워크플로우 JSON]

2026년 Claude Code 유출 사건 — 유출된 512,000줄의 소스 코드가 실제로 밝혀낸 것

왜 당신의 LLM은 계속해서 쓰레기 같은 JSON을 반환하는가 (그리고 이를 멈추는 방법)

n8n Summarization Chain 노드: 워크플로우에서 긴 문서 및 웹 페이지 요약하기 [무료 워크플로우 JSON]