본문으로 건너뛰기

© 2026 Molayo

GeekNews헤드라인2026. 06. 30. 07:33

Qwen 3.6 27B는 로컬 개발의 최적 지점

요약

Qwen 3.6 27B dense 모델은 로컬 환경에서 실행 가능한 강력한 성능의 모델로, 코딩 및 제약 조건 준수 작업에서 뛰어난 능력을 보여줍니다. llama.cpp와 양자화 기술을 활용해 개인용 하드웨어에서도 실용적인 수준의 에이전트 코딩 환경을 구축할 수 있습니다.

핵심 포인트

  • Qwen 3.6 27B는 35B A3B보다 느리지만 더 강력한 성능을 제공하는 dense 모델임
  • 단일 프롬프트로 Node 패키지 생성 등 복잡한 코딩 지시 수행 가능
  • llama.cpp와 8-bit GGUF 양자화를 통해 로컬 실행 및 최적화 가능
  • MTP(Multi-Token Prediction)를 활용해 로컬 추론 속도 향상 가능

Qwen 3.6 27B는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨- 창작·코딩 테스트에서는
제약 조건 준수가 강점으로 드러났고, OpenCode에서pnpm

기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함 llama.cpp

와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며,MTP, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음- Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는
llama.cpp + MTP

32 tok/s, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨 - Artificial Analysis 기준 Qwen3.6-27B는
37점으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임

Qwen 3.6 27B를 추천하는 이유

  • Qwen 3.6은 두 가지 변형으로 제공됨

  • Qwen 3.6 35B A3B: mixture-of-experts 모델

  • Qwen 3.6 27B: dense 모델이며 더 느리지만 더 강력한 선택지

  • Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 Will it Mythos?가 있음

  • 로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함

간단한 테스트와 실제 작업 결과

  • 간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신
    제약 글쓰기를 사용함 - Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐

  • 관련 대화는 transcript에 있음

  • OpenCode에서
    pnpm

을 사용해육각형 지뢰찾기를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함 - Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일
index.html

로 구현함 - 일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임

  • frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임

llama.cpp로 로컬 실행하기

로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 llama.cpp임

Hugging Face에서 용량을 줄인

양자화 모델을 받아 실행함- 인기 양자화 모델 제공처로 unsloth와 bartowski가 있음

  • 기본 모델은 보통
    BF16

정밀도임 - 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임

  • 더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름

  • 27B 비교는 Reddit benchmark, 35B A3B 비교는 Hugging Face discussion에 있음

서버 실행 예시

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0

: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함-m ~/models/Qwen3.6-27B-Q8_0.gguf

: 이미 모델 파일이 있으면 대신 사용할 수 있음draft-mtp

: 빠른 모델로 다음 토큰을 예측하는multi-token prediction을 사용해 속도를 높임-ngl 999

: 모든 레이어를 GPU에 올림-fa on

: flash attention을 켬-c 65536

: 컨텍스트 크기를 64k 토큰으로 설정함- Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
--port 8080

: 다른 설정에서 사용할 포트를 고정함http://127.0.0.1:8080

을 열면 직접 채팅할 수 있음

OpenCode 설정

  • 같은 서버를
    vibe coding에도 사용할 수 있음 - OpenCode에서는
    ~/.config/opencode/opencode.jsonc

에 다음 설정을 추가함

{ "$schema": "https://opencode.ai/config.json";, "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1";, "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" }

  • 같은 서버를

터미널 채팅용 실행

  • 터미널에서 채팅만 하려면
    llama-server

대신llama-cli

를 사용할 수 있음

llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536

  • 터미널에서 채팅만 하려면

Apple Silicon 성능 측정

  • 테스트 결과는 benching-local-llms-on-apple-silicon에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨

  • Qwen3.6-35B-A3B · 8-bit

  • MLX:
    85 tok/s, 37GB RAM - llama.cpp:
    93 tok/s, 44GB RAM - llama.cpp + MTP:
    105 tok/s, 45GB RAM

  • MLX:

  • Qwen3.6-27B · 8-bit

  • MLX:
    17 tok/s, 28GB RAM - llama.cpp:
    18 tok/s, 41GB RAM - llama.cpp + MTP:
    32 tok/s, 42GB RAM

  • MLX:

  • DeepSeek-V4-Flash · Q2–Q4

  • llama.cpp:
    33 tok/s, 103GB RAM

  • llama.cpp:

  • 30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감

  • mlx-lm은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음

  • 실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임

  • Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨

  • 소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨

  • Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘

  • 35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함

기존 최첨단 모델과의 비교

  • Artificial Analysis 점수 비교에서 Qwen3.6-27B는
    37점임 - 비교 표의 주요 항목은 다음과 같음

  • Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet

  • Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet

  • Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5

  • DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5

  • 추가 벤치마크는 notes에 있으며, 전반적인 흐름은 비슷함

  • Gemma 4 31B는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨

  • 벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함

  • 단,
    양자화 조건에는 주의가 필요함- 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼

  • DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨

  • 이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌

  • 더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음

로컬 모델 운영의 다음 단계

  • 직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음

  • 독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음

  • Claude Fable 5는 내려감

  • 다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임

  • 로컬 설정 모델은 필요에 맞게
    파인튜닝할 수 있고, 외부에서 회수할 수 없음 - 기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음

  • 개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음

  • frontier-level open-weight GLM 5.2 공개는 로컬 모델 흐름을 더 앞당김

  • Qwen 3.6은 징검다리였고, GLM 5.2도 로컬 실행이 가능함

  • GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임

  • 현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음

  • 현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을
    도구 호출로 넘기며 둘을 분리할 가능성이 큼

AI 자동 생성 콘텐츠

본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0