Qwen 3.6 27B는 로컬 개발의 최적 지점

Qwen 3.6 27B는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨- 창작·코딩 테스트에서는
제약 조건 준수가 강점으로 드러났고, OpenCode에서pnpm

기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함 llama.cpp

와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며,MTP, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음- Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는
llama.cpp + MTP

로32 tok/s, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨 - Artificial Analysis 기준 Qwen3.6-27B는
37점으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임

Qwen 3.6 27B를 추천하는 이유

Qwen 3.6은 두 가지 변형으로 제공됨
Qwen 3.6 35B A3B: mixture-of-experts 모델
Qwen 3.6 27B: dense 모델이며 더 느리지만 더 강력한 선택지
Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 Will it Mythos?가 있음
로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함

간단한 테스트와 실제 작업 결과

간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신
제약 글쓰기를 사용함 - Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐
관련 대화는 transcript에 있음
OpenCode에서
pnpm

을 사용해육각형 지뢰찾기를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함 - Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일
index.html

로 구현함 - 일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임

frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임

llama.cpp로 로컬 실행하기

로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 llama.cpp임

Hugging Face에서 용량을 줄인

양자화 모델을 받아 실행함- 인기 양자화 모델 제공처로 unsloth와 bartowski가 있음

기본 모델은 보통
BF16

정밀도임 - 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임

더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름
27B 비교는 Reddit benchmark, 35B A3B 비교는 Hugging Face discussion에 있음

서버 실행 예시

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0

: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함-m ~/models/Qwen3.6-27B-Q8_0.gguf

: 이미 모델 파일이 있으면 대신 사용할 수 있음draft-mtp

: 빠른 모델로 다음 토큰을 예측하는multi-token prediction을 사용해 속도를 높임-ngl 999

: 모든 레이어를 GPU에 올림-fa on

: flash attention을 켬-c 65536

: 컨텍스트 크기를 64k 토큰으로 설정함- Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
--port 8080

: 다른 설정에서 사용할 포트를 고정함http://127.0.0.1:8080

을 열면 직접 채팅할 수 있음

OpenCode 설정

같은 서버를
vibe coding에도 사용할 수 있음 - OpenCode에서는
~/.config/opencode/opencode.jsonc

에 다음 설정을 추가함

{ "$schema": "https://opencode.ai/config.json";, "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1";, "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" }

같은 서버를

터미널 채팅용 실행

터미널에서 채팅만 하려면
llama-server

대신llama-cli

를 사용할 수 있음

llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536

터미널에서 채팅만 하려면

Apple Silicon 성능 측정

테스트 결과는 benching-local-llms-on-apple-silicon에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨
Qwen3.6-35B-A3B · 8-bit
MLX:
85 tok/s, 37GB RAM - llama.cpp:
93 tok/s, 44GB RAM - llama.cpp + MTP:
105 tok/s, 45GB RAM
MLX:
Qwen3.6-27B · 8-bit
MLX:
17 tok/s, 28GB RAM - llama.cpp:
18 tok/s, 41GB RAM - llama.cpp + MTP:
32 tok/s, 42GB RAM
MLX:
DeepSeek-V4-Flash · Q2–Q4
llama.cpp:
33 tok/s, 103GB RAM
llama.cpp:
30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감
mlx-lm은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음
실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임
Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨
소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨
Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘
35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함

기존 최첨단 모델과의 비교

Artificial Analysis 점수 비교에서 Qwen3.6-27B는
37점임 - 비교 표의 주요 항목은 다음과 같음
Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet
Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet
Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5
DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5
추가 벤치마크는 notes에 있으며, 전반적인 흐름은 비슷함
Gemma 4 31B는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨
벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함
단,
양자화 조건에는 주의가 필요함- 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼
DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨
이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌
더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음

로컬 모델 운영의 다음 단계

직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음
독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음
Claude Fable 5는 내려감
다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임
로컬 설정 모델은 필요에 맞게
파인튜닝할 수 있고, 외부에서 회수할 수 없음 - 기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음
개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음
frontier-level open-weight GLM 5.2 공개는 로컬 모델 흐름을 더 앞당김
Qwen 3.6은 징검다리였고, GLM 5.2도 로컬 실행이 가능함
GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임
현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음
현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을
도구 호출로 넘기며 둘을 분리할 가능성이 큼