MTP/캐시 설정 튜닝 후 5090에서 구동한 Qwen3.6 27B의 6.4k 샘플 토큰/s 분포

9800X3D / 64GB / 5090 시스템에서 Qwen3.6 27B를 위해 llama.cpp를 한동안 튜닝했으며, 평균값은 많은 것을 숨기기 때문에 단순히 헤드라인 숫자만 보여주는 대신 실제 분포를 공유하고자 합니다.

q8 KV 캐시 (KV cache), 192k 컨텍스트 (context), MTP draft=10, spec-draft-p-min=0.5, batch/ubatch 512 설정으로 실행했습니다. 약 20시간 동안 에이전트 기반 코딩 + 디버깅 + 문서 작업이 혼합된 세션에 걸쳐 6,454개의 샘플을 기록했습니다. 피크 버킷(Peak bucket)은 120-130 tok/s에 위치하며, 평균(mean)은 140.7, 중앙값(median)은 134.9, 그리고 최대 233까지 이어지는 긴 꼬리(long tail)를 보입니다.

llama.cpp의 하이브리드 어텐션 (hybrid attention)/SWA 캐시 처리 방식이 이 모델에 대해 아직 완벽하지 않다는 점을 주목할 필요가 있습니다. 로그에서 프롬프트 재처리 (prompt reprocessing) 경고가 보인다면 그 이유 때문입니다. 설정을 비교해보고 싶은 분이 있다면 실행 플래그 (launch flags)를 기꺼이 공유하겠습니다.
submitted by /u/UsedMorning9886
[link] [comments]

Insights

MTP/캐시 설정 튜닝 후 5090에서 구동한 Qwen3.6 27B의 6.4k 샘플 토큰/s 분포

요약

핵심 포인트

댓글

1인 Micro-SaaS 창업자를 위한 AI 기반 이탈 분석 및 고객 복귀(Win-back) 초안 작성

Gemma: Google의 오픈 모델을 위한 개발자 가이드

채팅을 넘어: AI 에이전트와 MCP가 개발자에게 가져올 차세대 변화인 이유

코딩 에이전트에게 원시 자격 증명(raw credentials)을 제공하는 것을 중단하세요

Gemma: Google의 오픈 모델을 위한 개발자 가이드

채팅을 넘어: AI 에이전트와 MCP가 개발자에게 가져올 차세대 변화인 이유

코딩 에이전트에게 원시 자격 증명(raw credentials)을 제공하는 것을 중단하세요