본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 03. 09:00

MiniMax M2.7 AWQ-4bit 로의 성능 및 에너지 효율성 비교: 2 대 Spark vs 2 대 RTX 6000 (96GB)

요약

본 기술 기사는 MiniMax M2.7 AWQ-4bit 모델을 사용하여 Spark 클러스터와 2대의 RTX 6000 GPU를 비교 분석한 성능 및 에너지 효율성 벤치마크 결과를 제시합니다. 결과에 따르면, Spark 클러스터는 프롬프트 처리 및 토큰 생성 속도 면에서 2대 RTX 6000 구성 대비 뒤처지지 않는 우수한 성능을 보였습니다. 또한, 두 시스템 모두 전력 소모량 측면에서 유사한 효율성을 보여주었으며, 이는 비용과 에너지 관점에서 중요한 시사점을 제공합니다.

핵심 포인트

  • MiniMax M2.7 AWQ-4bit 모델은 양자화된 형태로 높은 성능을 유지하며 활용 가능함을 입증했습니다.
  • Spark 클러스터는 2대 RTX 6000 구성 대비 프롬프트 처리 및 토큰 생성 속도에서 큰 격차 없이 경쟁력 있는 성능을 보여주었습니다.
  • 두 시스템 모두 전력 소모량(1M 토큰 기준)이 유사하여, 단순히 GPU 사양만으로 우위를 판단하기 어렵습니다.
  • RTX 6000 구성은 높은 초기 비용($20K)과 임대 비용($3.78/시간)을 가지는 반면, Spark 클러스터는 상대적으로 낮은 소유 비용($7K)을 가집니다.

안녕하세요,

이 모델/양자화는 제 일상용 드라이버이며, 3 배 더 비싸고 4 배 더 많은 전력을 소모하는 구성과 비교할 참고 벤치마크가 필요했습니다.

결과 먼저, 방법론은 이후에, 모든 결과가 포함된 링크는 마지막에 있습니다.

모델: cyankiwi/MiniMax-M2.7-AWQ-4bit

결과 (c1)

https://preview.redd.it/dzp6qzfc0pyg1.png?width=858&format=png&auto=webp&s=368debb16760ecaaf8d5bd4013bfeaa5ef940a69

https://preview.redd.it/2gziemld0pyg1.png?width=859&format=png&auto=webp&s=84e2f3c389013854734fecf89a25d1dd095f4d62

(테이블을 텍스트로 업로드하려고 시도했으나 예상대로 작동하지 않았습니다")

놀랍게도, Spark 클러스터는 그리 뒤쳐지지 않았습니다. 평균적으로 2 대 RTX 6000 은 프롬프트 처리에서 2.7 배 더 빠르고 토큰 생성에서는 4.88 배 더 빠르며 가격 차이는 약 2.9 배입니다.

전력 소모량은 매우 비슷합니다 (1M 토큰으로 다시 보고됨)이며, $0.10/kWh 기준으로는:

(에너지 가격을 변경할 수 있습니다")

결과 (c2)

https://preview.redd.it/eid3d8rm0pyg1.png?width=858&format=png&auto=webp&s=471f80aa92fc9968177e40e53b6bb000eb3a214d

https://preview.redd.it/drz219on0pyg1.png?width=859&format=png&auto=webp&s=eac3cd8e3617a90b4887090a32282fbacd6af923

https://preview.redd.it/voqn4fro0pyg1.png?width=1741&format=png&auto=webp&s=06c656bb1ef7826480db3595b9eb32adf130be13

병렬로 2 개의 요청을 수행할 때 조금 이상해집니다 (각 컨텍스트 크기별 모든 벤치마크는 3 회 실행하여 평균화됨)

글쎄, 모든 설명은 없지만 제가 잘못하고 있는지 알려주시면 감사하겠습니다. 하지만 그렇죠, 병렬 고 컨텍스트에서는 KV-cache 가 한 번에 처리할 수 있는 한계에 도달하므로 요청이 제한되어 성능이 크게 떨어집니다.

RunPod 설정

  • GPU: 2xRTX PRO 6000 96GB
  • 비용: 임대 $3.78/시간 (더 저렴한 옵션도 존재함) (또는 소유 시 약 $20K)
  • 이미지: vLLM 최신 버전 (vllm/vllm-openai:latest)
  • 모델을 실행하는 데 걸리는 시간: 약 5-10 분 (주로 HF 에서 다운로드하는 130GB에 따라 다름)
  • 저장소: "Container disk" 만 160GB, 나머지는 0 GB (지속 가능한 저장이 필요 없으므로 매우 비쌈)
  • "Container 시작 명령어" (재현용)

cyankiwi/MiniMax-M2.7-AWQ-4bit --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 --gpu-memory-utilization=0.95 --trust-remote-code --kv-cache-dtype fp8_e4m3 --enable-auto-tool-choice --tool-call-parser minimax_m2

  • 전력 소모량 (예상치): 1450W (과대평가했을 수도 있음, 확실하지 않음, 수정을 환영함) 및 Threadripper CPU 를 가정함

Spark 설정

  • 2 대 Asus Ascent GX10
  • 비용: 소유 시 약 $7K (임대 옵션은 제한됨)
  • 전력 소모량: 평균 365W (모델이 준비된 상태에서 대기 시 100W - 개인적으로 이는 매우 나쁘다고 봄) | ed

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
7

댓글

0