r/LocalLLaMA분석2026. 05. 07. 23:00

Get faster qwen 3.6 27b

요약

본 기술 기사는 llama.cpp를 사용하여 Qwen3.6-27B 모델을 100k의 긴 컨텍스트 길이에서 높은 성능으로 구동하는 방법을 공유합니다. 특히 MTP(Memory-Targeted Processing) GGUF 포맷과 최신 llama.cpp 커밋을 적용하여, 3090 GPU 환경에서 초당 50 토큰(t/s)이라는 우수한 속도를 달성했음을 보여줍니다. 이 가이드는 긴 컨텍스트 처리가 필요한 사용자들에게 실질적인 성능 향상 방법을 제시합니다.

핵심 포인트

MTP GGUF 포맷과 llama.cpp의 최신 커밋을 활용하여 Qwen3.6-27B 모델의 성능을 극대화할 수 있습니다.
100k 컨텍스트 길이는 대부분의 작업에 충분하며, 이 긴 컨텍스트를 안정적으로 처리하는 것이 핵심입니다.
3090 GPU 환경에서 100k 컨텍스트 사용 시 초당 50 t/s라는 높은 추론 속도를 달성했습니다.
긴 컨텍스트(예: 90k 이상) 처리는 VRAM 및 시스템 리소스 관리가 중요하며, 안정적인 구동을 위해 특정 설정과 포맷이 필수적입니다.

100k 컨텍스트를 사용하여 3090 GPU 와 MTP GGUF 를 적용했을 때 llama.cpp 에서 50 t/s 의 성능을 얻었습니다.

지식 공유하고 싶었습니다.

사용할 모델: https://huggingface.co/RDson/Qwen3.6-27B-MTP-Q4_K_M-GGUF
am17an 커밋: https://github.com/ggml-org/llama.cpp/pull/22673

적용 방법 - 단계

cd path/to/llama.cpp
git fetch origin pull/22673/head:pr-22673
...

Llama-cpp 의 정확한 설정

./llama-server \
  -m "/media/model/Qwen3.6-27B-MTP-Q4_K_M.gguf" \
  --alias qwen3.6-27b-am17am \
...

참고: Spec draft 3 는 3090 에서 높은 컨텍스트 길이를 사용할 때 너무 느렸습니다.

왜 100k 컨텍스트를 사용하나요? 다른 이유 없이 100k 는 대부분의 작업에 충분하며, 이후 컴팩트하고 계속합니다.

Edit: 네, Q4 K 와 V 캐시를 사용했으므로 VRAM 은 19GB 입니다. 매우 안정적입니다. 90k 이상의 더 큰 컨텍스트를 사용할 경우 루프에 들어가고, 오류를 범하며 코딩에서 급격히 떨어집니다.

Updated: 온도 등 추가했습니다.

Edit2: MAC 버전도 apparently 있습니다.

Homebrew 를 통해 설치

brew install youssofal/mtplx/mtplx

서버 시작 (지원되는 모델에서 MTP 헤드를 자동 감지)

mtplx start --model /path/to/your/Qwen3.6-27B-MTP

그래프 확인

Graph Link

AI 자동 생성 콘텐츠

원문 바로가기

Get faster qwen 3.6 27b

요약

핵심 포인트

Homebrew 를 통해 설치

서버 시작 (지원되는 모델에서 MTP 헤드를 자동 감지)

댓글