API 키 없이 무료로 로컬 Gemma 4 또는 Qwen 3.6을 사용하여 Claude Code 실행하기 - 모든 Apple Silicon - Insights | Molayo

Apple Silicon Mac을 사용 중이라면 로컬 서버를 가리키도록 설정하여 Claude Code를 완전히 로컬에서(그리고 무료로) 실행할 수 있습니다. 방법은 다음과 같습니다:

설정 (2분)
brew install mlx-serve mlx-serve run gemma-4-e4b-it # 다운로드 + 서버 시작
그 다음 다음과 같이 Claude Code를 실행하세요:
ANTHROPIC_BASE_URL=http://localhost:11434 \ ANTHROPIC_API_KEY=local \ ANTHROPIC_DEFAULT_MODEL=mlx-serve \ claude

끝입니다. Claude Code의 스트리밍 (streaming), 도구 호출 (tool calls), 사고 블록 (thinking blocks), 멀티 턴 (multi-turn) 기능이 모두 Anthropic Messages API를 통해 로컬 모델에서 작동합니다.

로컬에서 잘 작동하는 모델

Gemma 4 E4B 4-bit (권장 시작점, M4 Max에서 약 30 tok/s 디코딩)
Qwen 3.6 27B 4-bit (네이티브 MTP 스펙 디코딩 지원, 약 32 tok/s, 코딩 작업 시 1.43배 더 빠름)
더 빠른 반복 사이클을 위한 Qwen 3.5 4B/8B

코딩 작업에 어떤 모델이 가장 적합한지에 대한 전체 가이드 + 팁: https://mlxserve.com/claude-code-local/
서버는 mlx-serve이며, MIT 라이선스, Python 불필요, 단일 바이너리로 구성됩니다. brew install mlx-serve
GitHub: https://github.com/ddalcu/mlx-serve
submitted by /u/FootballSuperb664
[link] [comments]

Insights

API 키 없이 무료로 로컬 Gemma 4 또는 Qwen 3.6을 사용하여 Claude Code 실행하기 - 모든 Apple Silicon

요약

핵심 포인트

댓글

웹 도구를 의존성 없는 MCP 서버로 전환하기

AI 에이전트로 실제 앱을 구축해 보았다 — 장점, 단점, 그리고 환각(Hallucination)

Fable 5가 Opus 4.8을 위해 작성한 6가지 무료 Claude Code 스킬 발견

NE-Agent: Khasi, Garo, Mizo어를 실제로 구사하는 AI 에이전트 구축하기

AI 에이전트로 실제 앱을 구축해 보았다 — 장점, 단점, 그리고 환각(Hallucination)

Fable 5가 Opus 4.8을 위해 작성한 6가지 무료 Claude Code 스킬 발견

NE-Agent: Khasi, Garo, Mizo어를 실제로 구사하는 AI 에이전트 구축하기