API 키 없이 무료로 로컬 Gemma 4 또는 Qwen 3.6을 사용하여 Claude Code 실행하기 - 모든 Apple Silicon
요약
Apple Silicon Mac 사용자가 API 키 없이 Gemma 4 또는 Qwen 3.6과 같은 로컬 모델을 사용하여 Claude Code를 무료로 실행하는 방법을 설명합니다. mlx-serve를 활용해 로컬 서버를 구축함으로써 스트리밍, 도구 호출 등 주요 기능을 로컬 환경에서 구현할 수 있습니다.
핵심 포인트
- Apple Silicon 환경에서 mlx-serve를 통해 Claude Code를 로컬로 실행 가능
- Gemma 4 및 Qwen 3.6 모델을 활용하여 API 비용 없이 사용 가능
- 스트리밍, 도구 호출, 사고 블록 등 Anthropic Messages API 기능 지원
- M4 Max 기준 Gemma 4 사용 시 약 30 tok/s의 성능 제공
Apple Silicon Mac을 사용 중이라면 로컬 서버를 가리키도록 설정하여 Claude Code를 완전히 로컬에서(그리고 무료로) 실행할 수 있습니다. 방법은 다음과 같습니다:
설정 (2분)
brew install mlx-serve mlx-serve run gemma-4-e4b-it # 다운로드 + 서버 시작
그 다음 다음과 같이 Claude Code를 실행하세요:
ANTHROPIC_BASE_URL=http://localhost:11434 \ ANTHROPIC_API_KEY=local \ ANTHROPIC_DEFAULT_MODEL=mlx-serve \ claude
끝입니다. Claude Code의 스트리밍 (streaming), 도구 호출 (tool calls), 사고 블록 (thinking blocks), 멀티 턴 (multi-turn) 기능이 모두 Anthropic Messages API를 통해 로컬 모델에서 작동합니다.
로컬에서 잘 작동하는 모델
- Gemma 4 E4B 4-bit (권장 시작점, M4 Max에서 약 30 tok/s 디코딩)
- Qwen 3.6 27B 4-bit (네이티브 MTP 스펙 디코딩 지원, 약 32 tok/s, 코딩 작업 시 1.43배 더 빠름)
- 더 빠른 반복 사이클을 위한 Qwen 3.5 4B/8B
코딩 작업에 어떤 모델이 가장 적합한지에 대한 전체 가이드 + 팁: https://mlxserve.com/claude-code-local/
서버는 mlx-serve이며, MIT 라이선스, Python 불필요, 단일 바이너리로 구성됩니다. brew install mlx-serve
GitHub: https://github.com/ddalcu/mlx-serve
submitted by /u/FootballSuperb664
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기