Get faster qwen 3.6 27b
요약
본 기술 기사는 llama.cpp를 사용하여 Qwen3.6-27B 모델을 100k의 긴 컨텍스트 길이에서 높은 성능으로 구동하는 방법을 공유합니다. 특히 MTP(Memory-Targeted Processing) GGUF 포맷과 최신 llama.cpp 커밋을 적용하여, 3090 GPU 환경에서 초당 50 토큰(t/s)이라는 우수한 속도를 달성했음을 보여줍니다. 이 가이드는 긴 컨텍스트 처리가 필요한 사용자들에게 실질적인 성능 향상 방법을 제시합니다.
핵심 포인트
- MTP GGUF 포맷과 llama.cpp의 최신 커밋을 활용하여 Qwen3.6-27B 모델의 성능을 극대화할 수 있습니다.
- 100k 컨텍스트 길이는 대부분의 작업에 충분하며, 이 긴 컨텍스트를 안정적으로 처리하는 것이 핵심입니다.
- 3090 GPU 환경에서 100k 컨텍스트 사용 시 초당 50 t/s라는 높은 추론 속도를 달성했습니다.
- 긴 컨텍스트(예: 90k 이상) 처리는 VRAM 및 시스템 리소스 관리가 중요하며, 안정적인 구동을 위해 특정 설정과 포맷이 필수적입니다.
100k 컨텍스트를 사용하여 3090 GPU 와 MTP GGUF 를 적용했을 때 llama.cpp 에서 50 t/s 의 성능을 얻었습니다.
지식 공유하고 싶었습니다.
사용할 모델: https://huggingface.co/RDson/Qwen3.6-27B-MTP-Q4_K_M-GGUF
am17an 커밋: https://github.com/ggml-org/llama.cpp/pull/22673
적용 방법 - 단계
cd path/to/llama.cpp
git fetch origin pull/22673/head:pr-22673
...
Llama-cpp 의 정확한 설정
./llama-server \
-m "/media/model/Qwen3.6-27B-MTP-Q4_K_M.gguf" \
--alias qwen3.6-27b-am17am \
...
참고: Spec draft 3 는 3090 에서 높은 컨텍스트 길이를 사용할 때 너무 느렸습니다.
왜 100k 컨텍스트를 사용하나요? 다른 이유 없이 100k 는 대부분의 작업에 충분하며, 이후 컴팩트하고 계속합니다.
Edit: 네, Q4 K 와 V 캐시를 사용했으므로 VRAM 은 19GB 입니다. 매우 안정적입니다. 90k 이상의 더 큰 컨텍스트를 사용할 경우 루프에 들어가고, 오류를 범하며 코딩에서 급격히 떨어집니다.
Updated: 온도 등 추가했습니다.
Edit2: MAC 버전도 apparently 있습니다.
Homebrew 를 통해 설치
brew install youssofal/mtplx/mtplx
서버 시작 (지원되는 모델에서 MTP 헤드를 자동 감지)
mtplx start --model /path/to/your/Qwen3.6-27B-MTP
그래프 확인
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기