4x 3090의 최적 지점(Sweet Spot) 찾기
요약
본 기사는 4개의 RTX 3090 GPU를 사용하여 Qwen3.6-27B 모델을 구동할 때의 성능 및 효율성 테스트 결과를 공유합니다. 전력 제한에 따른 출력, 프롬프트 처리, 총 처리량 등의 데이터를 분석한 결과, 약 220W 지점에서 최고의 효율(Sweet Spot)을 달성하는 것을 확인했습니다. 또한, 전력을 250W 이상으로 높여도 성능 향상 폭이 줄어드는 수익 체감 현상이 발생함을 보여줍니다.
핵심 포인트
- 4x RTX 3090 설정에서 Qwen3.6-27B 모델 구동 시의 상세 성능 테스트 결과를 제공합니다.
- 최고 효율(Sweet Spot)은 전력 제한 약 220W 지점에서 나타납니다.
- 전력을 높여도 성능 향상 폭이 줄어드는 수익 체감 현상이 관찰됩니다.
- 사용자는 Qwen 3.6 27B 모델의 일일 구동기(daily driver)로서 만족하며, 더 크거나 나은 모델에 대한 궁금증을 제기합니다.
다른 게시물에서 누군가 저에게 4x 3090 설정의 전력 소모에 대해 물어보았기에, 효율 곡선(efficiency curve)을 이해하기 위해 제가 수행한 전체 테스트를 공유합니다. 이 블로그 포스트 (제 것이 아님)를 참고 자료로 사용했습니다.
설정:
- GPU: 4x RTX 3090 (Dell OEM, EVGA XC3, 2x ASUS Strix)
- PCIe 토폴로지 (Topology): Gen 3 (Bifurcated: x16 / x8 / x8 / x4)
- 모델: Qwen3.6-27B (FP16)
- 백엔드 (Backend): vLLM v0.20.2 (TP=4)
| 전력 제한 (Power Limit, W) | 출력 (Output, t/s) | 프롬프트 처리 (Prompt Processing, t/s) | 총 처리량 (Total Throughput, t/s) | 효율 (Efficiency, t/joule) |
|---|---|---|---|---|
| 350/390 (제한 없음) | 29 | 239 | 269 | 0.77 |
| ... |
핵심 요약:
- 220W의 최적 지점 (Sweet Spot): 최고 효율 (블로그의 조사 결과와 일치)
- 수익 체감 (Diminishing Returns): 제한을 250W 이상으로 높여도 수익 체감 현상이 발생함
누군가에게 도움이 되기를 바랍니다. 질문이 있다면 기꺼이 답변해 드리겠습니다.
저는 Qwen 3.6 27B를 데일리 드라이버(daily driver)로 사용하는 것에 매우 만족하고 있지만, 이 설정에서 실행할 수 있는 더 좋거나 더 큰 모델이 있는지 여전히 알고 싶습니다. 제가 이해하기로는 최선은 DSv4를 Q2로 돌리는 것인데, 아직 완전히 지원되는지는 확실하지 않습니다.
추가 맥락: 이것은 일반적인 채굴 프레임(mining frame)을 사용한 오픈 빌드입니다. 10개의 TL-C12C-S(GPU 양쪽에 각각 5개씩 수직으로)를 사용하여 냉각하고 있습니다. 아주 최근에 빌드를 마쳤기 때문에 개선 방법에 대한 제안은 언제든 환영합니다.
수정: 표에 프롬프트 처리(prompt processing) 항목을 추가했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기