본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 17. 11:04

Strix Halo Llama.cpp MTP 벤치마크: 27B는 훨씬 빨라졌고, 35B는 결과가 엇갈림

요약

본 기사는 Strix Halo 하드웨어 환경에서 Llama.cpp를 사용하여 Qwen3.6 모델의 벤치마크 결과를 비교 분석합니다. 특히, MTP(Multi-Turn Prompting) 최적화가 적용된 버전과 기본 버전을 다양한 시나리오(15k 단일 턴 vs 5턴 연속 대화)에서 테스트했습니다. 그 결과, 27B 모델의 경우 MTP 적용이 전반적으로 속도 향상에 크게 기여했으나, 35B 모델에서는 성능 개선 폭이 미미하거나 오히려 느려지는 경향을 보였습니다.

핵심 포인트

  • MTP 최적화는 27B 모델에서 단일 턴 및 연속 대화 시 모두 상당한 속도 향상을 보여주었습니다. (예: 27B, 5턴 채팅 시 총 소요 시간 -22.46%)
  • 35B 모델의 경우 MTP 적용이 성능 개선 효과가 적거나 오히려 지연 시간을 증가시키는 경향을 보였습니다.
  • 벤치마크는 AMD RYZEN AI MAX+ CPU와 Radeon iGPU를 사용한 하드웨어 환경에서 진행되었으며, llama.cpp 및 Vulkan API를 활용했습니다.
  • 테스트는 15k 단일 턴 비캐시 조건과 약 28.5k 컨텍스트의 5턴 연속 대화 두 가지 시나리오에 초점을 맞추었습니다.

요약 (TL;DR)

모든 모델은 Qwen3.6입니다.

27B-MTP vs Base 27B (15k 단일 턴): 전반적으로 더 빠름

  • 총 소요 시간 (wall): 87.44s → 77.39s (10.05s 더 빠름 / -11.50%)
  • 생성 (Generation): 7.63 → 16.15 t/s (+111.77% 속도 향상)
  • 프롬프트 처리 (Prompt Processing): 279.75 → 244.90 t/s (-12.46% 속도 저하)

35B-MTP vs Base 35B (15k 단일 턴): 전반적으로 더 느림

  • 총 소요 시간 (wall): 20.83s → 23.16s (2.33s 더 느림 / +11.17%)
  • 생성 (Generation): 48.18 → 56.12 t/s (+16.47% 속도 향상)
  • 프롬프트 처리 (Prompt Processing): 972.18 → 811.90 t/s (-16.49% 속도 저하)

27B-MTP vs Base 27B (5턴 채팅, 약 28.5k 컨텍스트): 대폭적인 시간 절약

  • 총 소요 시간 (wall): 258.65s → 200.55s (58.10s 더 빠름 / -22.46%)
  • 2~5턴 (wall): 211.37s → 155.33s (56.04s 더 빠름 / -26.51%)
  • 평균 생성 (Avg Generation): 7.61 → 17.98 t/s (+136.41% 속도 향상)
  • 평균 프롬프트 처리 (Avg Prompt Processing): 254.20 → 207.87 t/s (-18.23% 속도 저하)

35B-MTP vs Base 35B (5턴 채팅, 약 28.5k 컨텍스트): 거의 비슷하거나 약간 더 느림

  • 총 소요 시간 (wall): 58.86s → 60.24s (1.38s 더 느림 / +2.34%)
  • 2~5턴 (wall): 47.96s → 49.21s (1.25s 더 느림 / +2.62%)
  • 평균 생성 (Avg Generation): 46.66 → 58.23 t/s (+24.80% 속도 향상)
  • 평균 프롬프트 처리 (Avg Prompt Processing): 826.47 → 703.45 t/s (-14.89% 속도 저하)

용어 설명:

  • wall = 요청을 보낸 시점부터 전체 응답을 받을 때까지의 실제 종료 간 경과 시간 (end-to-end elapsed time).
  • pp = 프롬프트 처리 처리량 (prompt processing throughput, tokens/sec).
  • gen t/s = 생성 처리량 (generation throughput, tokens/sec).

하드웨어 / 소프트웨어

  • CPU: AMD RYZEN AI MAX+ 395 (16C/32T)
  • iGPU: Radeon 8060S (RADV GFX1151)
  • RAM: 30 GiB
  • OS: Ubuntu 24.04, kernel 6.17
  • llama.cpp / llama-server: 9187 (0253fb21f)
  • Vulkan Instance: 1.4.313
  • GPU API: 1.4.305
  • Mesa RADV: 25.0.7

테스트된 모델 (모두 Unsloth)

  • Qwen3.6-27B-Q8_0.gguf
  • Qwen3.6-27B-Q8_0-MTP.gguf
  • Qwen3.6-35B-A3B-Q8_0.gguf
  • Qwen3.6-35B-A3B-Q8_0-MTP.gguf

사용된 런타임 설정 (Runtime Config Used)

  • --ctx-size 128000
  • -b 2048
  • --ubatch-size 1024
  • --flash-attn on
  • --threads 16
  • --threads-batch 16

MTP 모델 전용:

  • --spec-type draft-mtp
  • --spec-draft-n-max 3
  • --spec-draft-p-min 0.75

방법론 (Methodology)

15k 단일 턴 비캐시 (15k single-turn uncached)

  • 약 15k 프롬프트 토큰(prompt tokens)에 맞춰 조정된 합성 에이전트 프롬프트 (Synthetic agentic prompt).
  • max_tokens=256, temperature=0.
  • 매 실행 시 프롬프트를 무작위화(RUN_TAG)하여 cache_n=0 (진정한 비캐시 프리필, true uncached prefill) 상태로 유지.
  • 모델당 2회 실행.

5턴 연속 턴 테스트 (5-turn subsequent-turn test)

  • 각 모델에 대해 동일한 스크립트 기반의 5턴 대화 수행.
  • 각 턴마다 약 3,900단어의 사용자 페이로드 (user payload).
  • 5번째 턴에 도달하면 컨텍스트가 약 28.5k 프롬프트 토큰으로 증가.
  • max_tokens=220, temperature=0.
  • 5턴 전체 합계와 2~5턴만 별도로 보고 (subsequent turn 동작을 격리하기 위함).

안정성 (Stability)

  • 장시간 실행 중 발생하는 일시적인 502/503/504 오류에 대한 재시도 로직 적용.
  • 서버 추론 시간 (server infer timing)과 클라이언트 관찰 시간 (client-observed wall time)을 모두 보고.

전체 결과 (지연 시간 중심) (Full Results (Latency-Focused))

15k 단일 턴 (15k single-turn)

제품군 (Family)Non-MTP wallMTP wall차이 (Delta)
27B87.44s77.39s-11.50%
35B20.83s23.16s+11.17%

5턴 전체 (~5턴 시점 28.5k) (5-turn total (~28.5k by turn 5))

제품군 (Family)Non-MTP wallMTP wall차이 (Delta)
27B258.65s200.55s-22.46%
35B58.86s60.24s+2.34%

연속 턴만 (2~5턴) (Subsequent turns only (turns 2-5))

제품군 (Family)Non-MTP wallMTP wall차이 (Delta)
27B211.37s155.33s-26.51%
35B47.96s49.21s+2.62%

시사점 (Takeaways)

  • MTP는 일관되게 pp (prefill)를 낮추고 생성 t/s (tokens per second)를 높입니다.

  • 워크로드 형태가 전체적인 승자를 결정합니다:

  • 디코딩 (decode)이 지배적이라면, MTP가 압도적으로 유리할 수 있습니다 (여기서 27B 모델의 사례).

  • 프리필 (prefill)이 충분히 지배적이라면, MTP가 전체적으로 약간 불리할 수 있습니다 (여기서 35B 모델의 사례).

  • 이 Strix Halo 설정에서는:

  • 27B-MTP는 긴 컨텍스트 (long-context) 채팅 워크플로우를 위한 강력하고 실용적인 업그레이드입니다.

  • 35B-MTP는 결과가 엇갈립니다: 토큰 생성 (token generation)은 더 빠르지만, 이러한 특정 긴 컨텍스트 테스트에서는 엔드 투 엔드 (end-to-end) 성능이 약간 더 느립니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0