제2부: GPU 라이브러리 지원 - 추론 (Inference)

여기서 Nvidia의 소프트웨어 라이브러리 놀이터는 모두가 알다시피 매우 강력하지만, 추론 (Inference) 상황은 어떤지 살펴봅시다.

추론 (Inference) 스택과 양자화 (Quantization) 포맷은 사실 오늘날 가장 중요한 지점입니다. 왜냐하면 최신 토큰/초 (tok/s) 및 품질 데이터에 직접적인 영향을 미치기 때문입니다!

4비트 기준: MLX 4bit vs NVFP4 vs GGUF Q4

🟢Nvidia DGX Spark:

지원 포맷: NVFP4 / MXFP8 / FP8 / Q4
주요 환경 지원: vLLM 0.19+, SGLang, TensorRT-LLM, llama.cpp (CUDA)
FP4 하드웨어: 있음 (단, sm_121에서 부분적으로 게이팅됨)

🔴 Strix Halo:

지원 포맷: GGUF Q4 (Q4_K_M, IQ4_XS) 없음 (RDNA 3.5 WMMA)
주요 환경 지원: llama.cpp Vulkan/RADV (권장), ROCm 6.4.4
FP4 하드웨어: 없음 (RDNA 3.5 WMMA)

🔵 M5 Max 128GB:

지원 포맷: MLX 4-bit, GGUF Q4
주요 환경 지원: mlx-lm / LM Studio (MLX), vllm-mlx, llama.cpp Metal
FP4 하드웨어: 없음 (GPU Neural Accelerator, matmul)

tok/s 측정값

🟢Nvidia DGX Spark:
30B-A3B MoE 4-bit: 75 (NVFP4)
26-35B dense: 7 (Gemma4 31B) / 47 (Qwen35B FP8)
70B dense Q4: 2-7
120B-A12B MoE: 17 (vLLM) / 35

🔴 Strix Halo:
8B dense Q4: 50-70 (Vulkan)
30B-A3B MoE 4-bit: 100 (Qwen3-30B IQ4_XS)
26-35B dense: 대역폭 제한 (bandwidth-bound), 낮음
70B dense Q4: 아직 측정값 없음
120B-A12B MoE: 18.4 (Vulkan)

🔵 M5 Max 128GB:
8B dense Q4: 82 (MLX)
30B-A3B MoE 4-bit: 58 (Qwen3.5 30B-A3B)
26-35B dense: 30 (Llama4 Scout)
70B dense Q4: 18
120B-A12B MoE: 25-30

Insights

제2부: GPU 라이브러리 지원 - 추론 (Inference)

요약

핵심 포인트

댓글

Deepki의 Camion 인수: 상업용 부동산(CRE) 전기화 예산에 미치는 영향

실제로 작동하는 에이전트는 모델에 대해 논쟁하지 않습니다. 그 이유를 알아봅시다.

Low-Rank Adapters가 Preference Tuning을 Shortcut Tuning으로 바꾸는 방식

스마트폰 AI 에이전트가 WHOIS를 통해 서브도메인 탈취(Subdomain Takeover) 위험을 감지할 수 있을까?

Deepki의 Camion 인수: 상업용 부동산(CRE) 전기화 예산에 미치는 영향

실제로 작동하는 에이전트는 모델에 대해 논쟁하지 않습니다. 그 이유를 알아봅시다.

Low-Rank Adapters가 Preference Tuning을 Shortcut Tuning으로 바꾸는 방식

스마트폰 AI 에이전트가 WHOIS를 통해 서브도메인 탈취(Subdomain Takeover) 위험을 감지할 수 있을까?