MTP/캐시 설정 튜닝 후 5090에서 구동한 Qwen3.6 27B의 6.4k 샘플 토큰/s 분포
요약
9800X3D와 RTX 5090 환경에서 llama.cpp를 활용해 Qwen3.6 27B 모델의 추론 성능을 최적화한 결과입니다. MTP 및 KV 캐시 설정을 튜닝하여 샘플 토큰/s 분포를 분석하고 실제 구동 성능을 공유합니다.
핵심 포인트
- RTX 5090 기반 Qwen3.6 27B 모델의 추론 성능 분포 분석
- MTP draft 및 KV 캐시 설정을 통한 토큰 생성 속도 최적화
- llama.cpp의 하이브리드 어텐션 및 SWA 캐시 처리 이슈 확인
- 실제 워크로드 기반의 평균, 중앙값, 피크 성능 데이터 제공
9800X3D / 64GB / 5090 시스템에서 Qwen3.6 27B를 위해 llama.cpp를 한동안 튜닝했으며, 평균값은 많은 것을 숨기기 때문에 단순히 헤드라인 숫자만 보여주는 대신 실제 분포를 공유하고자 합니다.
q8 KV 캐시 (KV cache), 192k 컨텍스트 (context), MTP draft=10, spec-draft-p-min=0.5, batch/ubatch 512 설정으로 실행했습니다. 약 20시간 동안 에이전트 기반 코딩 + 디버깅 + 문서 작업이 혼합된 세션에 걸쳐 6,454개의 샘플을 기록했습니다. 피크 버킷(Peak bucket)은 120-130 tok/s에 위치하며, 평균(mean)은 140.7, 중앙값(median)은 134.9, 그리고 최대 233까지 이어지는 긴 꼬리(long tail)를 보입니다.
llama.cpp의 하이브리드 어텐션 (hybrid attention)/SWA 캐시 처리 방식이 이 모델에 대해 아직 완벽하지 않다는 점을 주목할 필요가 있습니다. 로그에서 프롬프트 재처리 (prompt reprocessing) 경고가 보인다면 그 이유 때문입니다. 설정을 비교해보고 싶은 분이 있다면 실행 플래그 (launch flags)를 기꺼이 공유하겠습니다.
submitted by /u/UsedMorning9886
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기