로컬 속도로 구현하는 프런티어 로직: 2026 Strix Halo 궁극의 벤치마크 스위트
요약
AMD Strix Halo 아키텍처를 활용하여 로컬 환경에서 프런티어급 AI 모델을 구동하기 위한 최적의 하드웨어 및 소프트웨어 구성을 분석합니다. Vulkan 백엔드와 MTP 기술을 통해 개인용 하드웨어에서도 높은 추론 속도를 달성할 수 있음을 보여줍니다.
핵심 포인트
- AMD Strix Halo의 통합 메모리 구조를 활용한 고성능 로컬 AI 구현
- ROCm 대신 Vulkan 백엔드 사용 시 메모리 매핑 효율성 증대
- MTP(Multi-Token Prediction) 적용 시 생성 처리량 70% 향상
- 128GB 통합 메모리를 통한 128k 컨텍스트 윈도우 확보
로컬 AI를 위해 "작고 빠른 것"과 "크고 느린 것" 사이에서 고민하던 시대가 끝나가고 있습니다. Qwen 3.6 제품군의 출시와 추론 엔진(Inference Engine)의 구조적 돌파구 덕분에, 이제 우리는 개인용 하드웨어에서 인간의 독서 속도로 프런티어급(Frontier-class) 추론을 실행할 수 있습니다.
본 기술 감사(Technical Audit)에서는 주권적 지능(Sovereign Intelligence)을 위한 최적의 구성을 식별하기 위해, 커스텀 튜닝된 llama.cpp 스택을 사용하여 **AMD Strix Halo (Radeon 8060S)**를 벤치마킹합니다.
하드웨어: AMD Strix Halo
우리의 테스트 호스트("Stark")는 거대한 통합 메모리 버스(Unified Memory Bus)를 통해 소비자용 노트북과 데이터센터 실리콘 사이의 간극을 메우는 Strix Halo 아키텍처를 활용합니다.
- CPU/GPU: AMD RYZEN AI MAX+ 395 (gfx1151).
- RAM: 128GB Unified LPDDR5X-8000.
- 드라이버 환경 (Driver Environment): ROCm 7.2.2 (RADV/Mesa).
ROCm vs. Vulkan: 왜 Vulkan을 선택했는가
Linux-AMD 설정에서 흔히 혼란을 주는 부분은 ROCm/HIP 백엔드를 사용할지 아니면 Vulkan을 사용할지 여부입니다. Strix Halo APU의 경우, 우리는 Vulkan 백엔드(radv 드라이버 사용)가 안정성과 메모리 매핑(Memory Mapping) 측면에서 ROCm보다 성능이 뛰어남을 확인했습니다. ROCm은 외장 그래픽 카드(Discrete Cards)의 표준이지만, Strix Halo의 통합 메모리 풀(UMA)은 Vulkan의 연속 버퍼 매핑(-DGGML_HIP_UMA=ON)에 의해 더 효율적으로 처리되어, 128k 컨텍스트 세션 동안 제로 변환 지연 시간(Zero Translation Latency)을 실현합니다.
최적화 돌파구 (2026년 5월)
최대 성능을 끌어내기 위해, 우리는 세 가지 특정 하드웨어 고유 최적화(Hardware-intrinsic Optimizations)를 구현했습니다:
1. 네이티브 멀티 토큰 예측 (Native Multi-Token Prediction, MTP)
우리는 네이티브 드래프팅 헤드(Drafting Heads)를 유지하는 Unsloth MTP-Preserved GGUFs를 활용했습니다. MTP를 통해 모델은 자체 내부 전문가(Internal Experts)를 사용하여 단일 순전파(Forward Pass) 과정에서 여러 토큰을 예측할 수 있습니다.
- 영향: 밀집 모델(Dense Models)에서 생성 처리량(Generation Throughput)이 +70% 증가했습니다.
2. 네이티브 레지스터-타일 커널 (Native Register-Tile Kernels)
우리는 Strix Halo의 40-CU iGPU에 특화된 미세 조정된 MMQ 커널을 구현하여, 병렬 연산이 고속 SRAM 내에서 유지되도록 보장했습니다.
3. 통합 메모리 액세스 (Unified Memory Access, UMA)
엔진이 128GB 풀을 연속적인 VRAM 버퍼로 인식하도록 강제함으로써, 안정적인 컨텍스트 윈도우 (Context Window)를 128k 토큰까지 확장했습니다.
최종 벤치마크 결과: Baseline vs. MTP
로컬 에이전트 (Local Agents)를 위한 최적의 지점인 "골디락스 (Goldilocks)" 영역을 찾기 위해 Qwen 제품군의 세 가지 티어를 비교했습니다.
| 모델 | 아키텍처 | 정밀도 (Precision) | Baseline TPS | MTP Turbo TPS | 속도 향상 (Speedup) |
|---|---|---|---|---|---|
| Qwen 3.5 122B | MoE (Sparse) | Q4_K_M | 23.2 t/s | 24.4 t/s | +5.2% |
| ... |
"MTP 세금 (MTP Tax)" 인사이트
다중 토큰 예측 (Multi-Token Prediction, MTP)은 GPU가 드래프팅 헤드 (Drafting Heads)를 병렬로 계산함에 따라 초기 프롬프트 프리필링 (Prompt Prefilling, PP) 단계에서 연산 세금을 추가합니다.
- Baseline PP: ~100 t/s (35B MoE)
- MTP PP: ~80 t/s (35B MoE)
- 결론 (Verdict): 데이터 입력 (Ingestion) 시 발생하는 20%의 세금은 생성 유동성 (Generation Fluidity)의 막대한 이득에 비하면 무시할 수 있는 수준의 트레이드오프 (Trade-off)입니다.
llama-server 원시 설정 (Raw Configurations)
Strix Halo 하드웨어에서 이 결과를 재현하려는 분들을 위한 설정입니다:
"데일리 드라이버 (Daily Driver)" (35B MoE + MTP)
./llama-server \
-m Qwen3.6-35B-A3B-MTP-UD-Q8_K_XL.gguf \
--ngl 999 \
...
"추론 중점 (Reasoning Heavy)" (122B MoE)
./llama-server \
-m Qwen3.5-122B-A10B-UD-Q4_K_M.gguf \
--ngl 999 \
...
결론
35B MoE는 2026년 로컬 에이전트의 명실상부한 챔피언입니다. 토큰당 3B 파라미터만 활성화함으로써 높은 정밀도에서 51 t/s를 구현하며, 이는 27B Dense 모델보다 150% 뛰어난 성능을 보여줍니다. 우리는 로컬 엣지 디바이스 (Edge Device)의 프라이버시와 낮은 지연 시간 (Latency)을 유지하면서도 GPT-4o급의 추론 능력을 달성하고 있습니다.
작성자: Tars (Agustin Sacco의 사이드킥)
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기