Qwen 3.6 27B는 로컬 개발의 최적 지점
요약
Qwen 3.6 27B dense 모델은 로컬 환경에서 실행 가능한 강력한 성능의 모델로, 코딩 및 제약 조건 준수 작업에서 뛰어난 능력을 보여줍니다. llama.cpp와 양자화 기술을 활용해 개인용 하드웨어에서도 실용적인 수준의 에이전트 코딩 환경을 구축할 수 있습니다.
핵심 포인트
- Qwen 3.6 27B는 35B A3B보다 느리지만 더 강력한 성능을 제공하는 dense 모델임
- 단일 프롬프트로 Node 패키지 생성 등 복잡한 코딩 지시 수행 가능
- llama.cpp와 8-bit GGUF 양자화를 통해 로컬 실행 및 최적화 가능
- MTP(Multi-Token Prediction)를 활용해 로컬 추론 속도 향상 가능
Qwen 3.6 27B는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨- 창작·코딩 테스트에서는
제약 조건 준수가 강점으로 드러났고, OpenCode에서pnpm
기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함 llama.cpp
와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며,MTP, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음- Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는
llama.cpp + MTP
로32 tok/s, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨 - Artificial Analysis 기준 Qwen3.6-27B는
37점으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임
Qwen 3.6 27B를 추천하는 이유
-
Qwen 3.6은 두 가지 변형으로 제공됨
-
Qwen 3.6 35B A3B: mixture-of-experts 모델
-
Qwen 3.6 27B: dense 모델이며 더 느리지만 더 강력한 선택지
-
Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 Will it Mythos?가 있음
-
로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함
간단한 테스트와 실제 작업 결과
-
간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신
제약 글쓰기를 사용함 - Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐 -
관련 대화는 transcript에 있음
-
OpenCode에서
pnpm
을 사용해육각형 지뢰찾기를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함 - Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일
index.html
로 구현함 - 일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임
- frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임
llama.cpp로 로컬 실행하기
로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 llama.cpp임
Hugging Face에서 용량을 줄인
양자화 모델을 받아 실행함- 인기 양자화 모델 제공처로 unsloth와 bartowski가 있음
- 기본 모델은 보통
BF16
정밀도임 - 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임
-
더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름
-
27B 비교는 Reddit benchmark, 35B A3B 비교는 Hugging Face discussion에 있음
서버 실행 예시
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0
: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함-m ~/models/Qwen3.6-27B-Q8_0.gguf
: 이미 모델 파일이 있으면 대신 사용할 수 있음draft-mtp
: 빠른 모델로 다음 토큰을 예측하는multi-token prediction을 사용해 속도를 높임-ngl 999
: 모든 레이어를 GPU에 올림-fa on
: flash attention을 켬-c 65536
: 컨텍스트 크기를 64k 토큰으로 설정함- Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
--port 8080
: 다른 설정에서 사용할 포트를 고정함http://127.0.0.1:8080
을 열면 직접 채팅할 수 있음
OpenCode 설정
- 같은 서버를
vibe coding에도 사용할 수 있음 - OpenCode에서는
~/.config/opencode/opencode.jsonc
에 다음 설정을 추가함
{ "$schema": "https://opencode.ai/config.json";, "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1";, "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" }
- 같은 서버를
터미널 채팅용 실행
- 터미널에서 채팅만 하려면
llama-server
대신llama-cli
를 사용할 수 있음
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536
- 터미널에서 채팅만 하려면
Apple Silicon 성능 측정
-
테스트 결과는 benching-local-llms-on-apple-silicon에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨
-
Qwen3.6-35B-A3B · 8-bit
-
MLX:
85 tok/s, 37GB RAM - llama.cpp:
93 tok/s, 44GB RAM - llama.cpp + MTP:
105 tok/s, 45GB RAM -
MLX:
-
Qwen3.6-27B · 8-bit
-
MLX:
17 tok/s, 28GB RAM - llama.cpp:
18 tok/s, 41GB RAM - llama.cpp + MTP:
32 tok/s, 42GB RAM -
MLX:
-
DeepSeek-V4-Flash · Q2–Q4
-
llama.cpp:
33 tok/s, 103GB RAM -
llama.cpp:
-
30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감
-
mlx-lm은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음
-
실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임
-
Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨
-
소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨
-
Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘
-
35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함
기존 최첨단 모델과의 비교
-
Artificial Analysis 점수 비교에서 Qwen3.6-27B는
37점임 - 비교 표의 주요 항목은 다음과 같음 -
Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet
-
Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet
-
Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5
-
DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5
-
추가 벤치마크는 notes에 있으며, 전반적인 흐름은 비슷함
-
Gemma 4 31B는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨
-
벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함
-
단,
양자화 조건에는 주의가 필요함- 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼 -
DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨
-
이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌
-
더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음
로컬 모델 운영의 다음 단계
-
직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음
-
독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음
-
Claude Fable 5는 내려감
-
다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임
-
로컬 설정 모델은 필요에 맞게
파인튜닝할 수 있고, 외부에서 회수할 수 없음 - 기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음 -
개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음
-
frontier-level open-weight GLM 5.2 공개는 로컬 모델 흐름을 더 앞당김
-
Qwen 3.6은 징검다리였고, GLM 5.2도 로컬 실행이 가능함
-
GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임
-
현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음
-
현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을
도구 호출로 넘기며 둘을 분리할 가능성이 큼
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기