본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 16. 07:25

제2부: GPU 라이브러리 지원 - 추론 (Inference)

요약

Nvidia DGX Spark, Strix Halo, M5 Max 환경에서 다양한 GPU 라이브러리와 양자화 포맷을 활용한 LLM 추론 성능을 비교 분석합니다. 각 하드웨어별 지원 포맷과 토큰 생성 속도(tok/s) 데이터를 제공합니다.

핵심 포인트

  • Nvidia DGX Spark는 NVFP4, FP8 등 다양한 포맷과 강력한 추론 성능을 지원함
  • Strix Halo는 GGUF Q4 지원이 제한적이며 Vulkan/ROCm 환경을 권장함
  • M5 Max는 MLX 및 Metal을 통해 안정적인 4-bit 추론 성능을 보여줌
  • 하드웨어 아키텍처에 따라 양자화 포맷과 최적의 추론 스택이 달라짐

제2부: GPU 라이브러리 지원 - 추론 (Inference)

여기서 Nvidia의 소프트웨어 라이브러리 놀이터는 모두가 알다시피 매우 강력하지만, 추론 (Inference) 상황은 어떤지 살펴봅시다.

추론 (Inference) 스택과 양자화 (Quantization) 포맷은 사실 오늘날 가장 중요한 지점입니다. 왜냐하면 최신 토큰/초 (tok/s) 및 품질 데이터에 직접적인 영향을 미치기 때문입니다!

4비트 기준: MLX 4bit vs NVFP4 vs GGUF Q4

🟢Nvidia DGX Spark:

  • 지원 포맷: NVFP4 / MXFP8 / FP8 / Q4
  • 주요 환경 지원: vLLM 0.19+, SGLang, TensorRT-LLM, llama.cpp (CUDA)
  • FP4 하드웨어: 있음 (단, sm_121에서 부분적으로 게이팅됨)

🔴 Strix Halo:

  • 지원 포맷: GGUF Q4 (Q4_K_M, IQ4_XS) 없음 (RDNA 3.5 WMMA)
  • 주요 환경 지원: llama.cpp Vulkan/RADV (권장), ROCm 6.4.4
  • FP4 하드웨어: 없음 (RDNA 3.5 WMMA)

🔵 M5 Max 128GB:

  • 지원 포맷: MLX 4-bit, GGUF Q4
  • 주요 환경 지원: mlx-lm / LM Studio (MLX), vllm-mlx, llama.cpp Metal
  • FP4 하드웨어: 없음 (GPU Neural Accelerator, matmul)

tok/s 측정값

🟢Nvidia DGX Spark:
30B-A3B MoE 4-bit: 75 (NVFP4)
26-35B dense: 7 (Gemma4 31B) / 47 (Qwen35B FP8)
70B dense Q4: 2-7
120B-A12B MoE: 17 (vLLM) / 35

🔴 Strix Halo:
8B dense Q4: 50-70 (Vulkan)
30B-A3B MoE 4-bit: 100 (Qwen3-30B IQ4_XS)
26-35B dense: 대역폭 제한 (bandwidth-bound), 낮음
70B dense Q4: 아직 측정값 없음
120B-A12B MoE: 18.4 (Vulkan)

🔵 M5 Max 128GB:
8B dense Q4: 82 (MLX)
30B-A3B MoE 4-bit: 58 (Qwen3.5 30B-A3B)
26-35B dense: 30 (Llama4 Scout)
70B dense Q4: 18
120B-A12B MoE: 25-30

AI 자동 생성 콘텐츠

본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0