MTP 하이퍼파라미터 탐색 (MTP hyperparameter search)

요약(TLDR); 단순한 (naïve) 파라미터 대비 초당 토큰 수 (tokens/sec)가 6% 개선되었습니다.

Strix Halo 환경에서 Qwen3.6 27b 모델을 대상으로 llama-server의 MTP 및 투기적 디코딩 (speculative decoding) 옵션에 대해 Optuna를 사용하여 하이퍼파라미터 탐색 (hyperparameter search)을 진행하며 이것저것 시도해 보았습니다.

여기 매우 거친 수준의 Python 스크립트가 있습니다 (Qwen이 생성함): https://gist.github.com/joshvoigts/5b74b8c31e934ff50ce57aa653a343d5

=========== 최적 결과 (BEST RESULT) ===========
13.24 tokens/sec llama-server --model models/qwen3.6/Qwen3.6-27B-UD-Q8_K_XL.gguf --n-gpu-layers 999 --flash-attn on --no-mmap --fit off --no-context-shift --batch-size 2048 --ubatch-size 1024 --threads 16 --threads-batch 16 --ctx-size 131072 --parallel 1 --temperature 0.6 --top-k 20 --top-p 0.95 --min-p 0 --cache-ram 32768 --ctx-checkpoints 16 --spec-type draft-mtp --spec-draft-n-max 4 --spec-draft-n-min 1 --spec-draft-p-min 0.6014768686826704 --spec-draft-p-split 0.39840112543740347 --spec-draft-threads 14 --spec-draft-threads-batch 4
제출자: /u/Zc5Gwu
[link] [comments]

Insights

MTP 하이퍼파라미터 탐색 (MTP hyperparameter search)

요약

핵심 포인트

댓글

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표

AI로 코드는 빠르게 작성할 수 있는데 개발이 극적으로 빨라지지 않는 이유

IBM 주가는 고점 대비 33% 하락했고 배당 수익률은 3%입니다. 이 배당금이 회사에 실제로 미치는 비용은 얼마일까요?

세계 면화 무역량, 2028/29 시즌까지 1,030만 톤에 달할 전망

AI로 코드는 빠르게 작성할 수 있는데 개발이 극적으로 빨라지지 않는 이유

IBM 주가는 고점 대비 33% 하락했고 배당 수익률은 3%입니다. 이 배당금이 회사에 실제로 미치는 비용은 얼마일까요?

세계 면화 무역량, 2028/29 시즌까지 1,030만 톤에 달할 전망