본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 06:13

MTP 하이퍼파라미터 탐색 (MTP hyperparameter search)

요약

Strix Halo 환경에서 Qwen3.6 27B 모델을 대상으로 MTP 및 투기적 디코딩의 최적 하이퍼파라미터를 Optuna로 탐색한 결과입니다. 단순 파라미터 대비 초당 토큰 생성 속도가 약 6% 개선되었습니다.

핵심 포인트

  • Optuna를 활용한 MTP 및 투기적 디코딩 하이퍼파라미터 최적화
  • Strix Halo 환경에서 Qwen3.6 27B 모델 성능 테스트
  • 최적화 결과 초당 토큰 수(tokens/sec) 6% 향상 달성
  • llama-server 기반의 구체적인 최적 실행 옵션 제공

요약(TLDR); 단순한 (naïve) 파라미터 대비 초당 토큰 수 (tokens/sec)가 6% 개선되었습니다.

Strix Halo 환경에서 Qwen3.6 27b 모델을 대상으로 llama-server의 MTP 및 투기적 디코딩 (speculative decoding) 옵션에 대해 Optuna를 사용하여 하이퍼파라미터 탐색 (hyperparameter search)을 진행하며 이것저것 시도해 보았습니다.

여기 매우 거친 수준의 Python 스크립트가 있습니다 (Qwen이 생성함): https://gist.github.com/joshvoigts/5b74b8c31e934ff50ce57aa653a343d5

=========== 최적 결과 (BEST RESULT) ===========
13.24 tokens/sec llama-server --model models/qwen3.6/Qwen3.6-27B-UD-Q8_K_XL.gguf --n-gpu-layers 999 --flash-attn on --no-mmap --fit off --no-context-shift --batch-size 2048 --ubatch-size 1024 --threads 16 --threads-batch 16 --ctx-size 131072 --parallel 1 --temperature 0.6 --top-k 20 --top-p 0.95 --min-p 0 --cache-ram 32768 --ctx-checkpoints 16 --spec-type draft-mtp --spec-draft-n-max 4 --spec-draft-n-min 1 --spec-draft-p-min 0.6014768686826704 --spec-draft-p-split 0.39840112543740347 --spec-draft-threads 14 --spec-draft-threads-batch 4
제출자: /u/Zc5Gwu
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0