4시간 동안 로컬 LLM으로 Claude Code 실행 — 700만 토큰, 비용 0달러 (원래라면 94달러)
요약
LiteLLM과 llama.cpp를 활용하여 Claude Code를 로컬 LLM(Qwen3.6-27B-MTP)으로 연결하는 방법을 소개합니다. 이를 통해 API 비용 없이 700만 토큰 이상의 대규모 코딩 세션을 수행할 수 있으며, 프라이버시와 속도 제한 문제를 동시에 해결할 수 있습니다.
핵심 포인트
- LiteLLM 프록시를 통해 Claude Code를 로컬 모델로 라우팅 가능
- AMD GPU와 llama.cpp를 활용한 비용 0달러 코딩 환경 구축
- 데이터 프라이버시 확보 및 API 속도 제한 문제 해결
- Qwen 모델과 추측적 디코딩을 통한 효율적인 추론 속도 구현
지난주 저는 Claude Code를 사용하여 4시간 동안 자율 코딩 세션을 진행했습니다. 하지만 Anthropic API를 사용하지 않았습니다.
대신, 제 AMD GPU에서 Qwen3.6-27B-MTP를 실행하는 로컬 llama.cpp 인스턴스를 통해 라우팅했습니다. 총 비용은 $0였습니다.
Claude Opus 4.7으로 동일한 세션을 진행했다면 ~$94.34가 들었을 것입니다.
이 스택이 정확히 어떻게 작동하는지, 그리고 어떻게 이를 재현할 수 있는지 설명하겠습니다.
스택 (The stack)
핵심 통찰: Claude Code는 Anthropic API 형식을 사용하지만, LiteLLM을 사용하면 이를 모든 OpenAI 호환 백엔드로 프록시(Proxy)할 수 있습니다. 여러분의 로컬 모델은 자신이 Claude Code에 의해 호출되고 있다는 사실을 전혀 알지 못합니다.
Claude Code
↓ (Anthropic API라고 생각함)
LiteLLM proxy (localhost:4000)
...
하드웨어 (Hardware)
- GPU: AMD Radeon AI PRO R9700 (RDNA3, 32 GB VRAM)
- 백엔드 (Backend): llama.cpp HIP/ROCm 가속
- 모델 (Model): Qwen3.6-27B-MTP Q4_K_M + 0.6B MTP 초안 (speculative decoding, 추측적 디코딩)
추론 속도 (batch=1):
- 프리필 (Prefill): ~200 tokens/sec
- 생성 (Generation): ~25-35 tokens/sec
검증된 세션 (The session that validated it)
4시간 동안의 자율 코딩 실행 — Hermes Agent가 다단계 코드 마이그레이션(code migration)을 수행하며, 도구를 호출하고, 파일을 편집하며, 제가 Telegram으로 지켜보는 동안 루프를 돌았습니다.
통계 (Stats):
- 지속 시간: ~4시간
- 처리된 토큰: 7,256,671
- API 비용: $0
- Claude Opus 4.7 환산 시: ~$94.34
비용 외에 이것이 중요한 이유
- 속도 제한(Rate limits)이나 주간 한도 없음 — Claude Code의 사용 제한이 여러분의 기기에는 적용되지 않습니다.
- 완전한 프라이버시 (Full privacy) — 여러분의 코드가 하드웨어를 절대 벗어나지 않습니다.
- 오프라인 기능 (Offline capability) — 모델을 다운로드한 후에는 인터넷 없이도 작동합니다.
- 재현성 (Reproducibility) — 매번 동일한 모델 가중치(model weights)를 사용하며, 조용한 업데이트가 없습니다.
3단계 설정 방법
1. llama.cpp 서버 시작
./llama-server \
--model Qwen3.6-27B-MTP-Q4_K_M.gguf \
--draft-model Qwen3.6-0.6B-Q8_0.gguf \
...
2. LiteLLM 프록시 설정 (LiteLLM proxy config)
model_list:
- model_name: claude-opus-4-5
litellm_params:
...
litellm --config litellm.proxy.yaml --port 4000
3. Claude Code를 로컬 프록시(local proxy)로 지정하기
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_API_KEY=fake-key
claude
완료되었습니다. 이제 Claude Code는 사용자의 GPU와 통신합니다.
Hermes Agent를 활용한 풀스택 (Full stack)
Telegram 제어, 지속적인 작업 컨텍스트 (task context), 그리고 도구 오케스트레이션 (tool orchestration)을 갖춘 에이전트 세션 (agentic sessions)을 위해, 저는 그 위에 Hermes Agent를 사용합니다. 전체 오픈 소스 설정은 다음과 같습니다:
github.com/KaiFelixBennett/hermes-claude-code-local
llama.cpp 시작 스크립트, LiteLLM 설정, Hermes Agent 설정 및 벤치마크 (benchmark) 결과가 포함되어 있습니다.
하드웨어 요구 사항 (Hardware requirements)
- 최소 사양: 유용한 코딩 모델 (13B급)을 위해 16 GB VRAM 필요
- 권장 사양: 27B급 모델을 위해 24 GB 이상 권장
- NVIDIA CUDA: 지원됨, CUDA llama.cpp 빌드를 사용하세요
- Apple Silicon: Metal 백엔드 (backend)로 작동해야 함 — 벤치마크가 필요합니다!
여러분의 하드웨어 사양과 생성 속도 (generation speeds)를 댓글로 남겨주세요. 특히 NVIDIA와 Apple Silicon 관련 수치에 관심이 많습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기