Claude Code 및 Codex를 위한 무료 모델 플레이북

📖 차트와 임베디드 소스가 포함된 전체 버전은 AgentConn에서 확인하세요 →

월 200달러의 문제

Claude Code Max는 월 200달러입니다. Codex Pro도 월 200달러입니다. 매일 프로덕션 코드를 배포하는 전문 개발자에게 이 금액은 합리적인 수치입니다. 하지만 학생, 취미 활동가, 밤과 주말을 이용해 사업을 일구는 초기 창업자(bootstrapped founder), 또는 200달러가 한 달 치 월세인 국가의 운영자에게 이 금액은 거대한 장벽입니다.

하지만 2026년에 변화가 생겼습니다. Claude Code와 Codex CLI 모두 이제 제3자 모델 백엔드(third-party model backends)를 지원합니다. 이 도구들을 어떤 OpenAI 호환 API 엔드포인트(API endpoint)로든 연결할 수 있습니다. 즉, 수십 개의 무료 모델을 통합하는 게이트웨이(gateway)를 통해 라우팅하면서, 추론(inference) 비용을 전혀 지불하지 않고도 이미 익숙한 에이전트 하네스(agent harness)를 그대로 유지할 수 있다는 뜻입니다.

"Claude Code에 쓰는 월 100달러를 Zed와 OpenRouter로 재배분하기"라는 제목의 Hacker News 스레드는 이러한 변화를 포착했습니다. 개발자들은 코딩 작업의 80% — 코드 완성(completions), 단일 파일 편집, 테스트 생성, 보일러플레이트(boilerplate) 작성 — 가 프런티어 모델(frontier model)을 필요로 하지 않는다는 사실을 발견하고 있습니다. 그들에게 필요한 것은 충분히 성능이 좋고, 지금 바로 사용할 수 있으며, 무료인 모델입니다.

이 플레이북은 두 가지 게이트웨이 옵션(OpenRouter 및 OmniRoute), 2026년 6월 기준 코딩에 가장 적합한 무료 모델, 그리고 Claude Code와 Codex CLI 모두를 위한 단계별 설정 방법을 다룹니다.

두 가지 게이트웨이 옵션

무료 모델로 가는 길에는 두 가지 경로가 있습니다. 하나는 즉시 사용 가능한 방식(turnkey)이고, 다른 하나는 더 많은 제어권을 제공하는 방식입니다.

OpenRouter: 즉시 사용 가능한 방식

OpenRouter는 수십 개의 제공업체(provider)로부터 수백 개의 모델을 단일 API 엔드포인트 뒤로 집계하는 검증된 라우팅 게이트웨이(routing gateway)입니다. 2026년 6월 기준으로, GLM-5.2, DeepSeek V4 Flash, Qwen3-Coder, Devstral 2를 포함하여 29개의 무료 모델을 제공합니다. 로컬 서버, Docker, GPU가 필요 없습니다. 가입하고, API 키를 받고, 세 개의 환경 변수(environment variables)를 설정하면 바로 시작할 수 있습니다.

트레이드오프(tradeoff): 여전히 제3자를 통해 라우팅된다는 점입니다. 사용자의 프롬프트(prompts)는 모델 제공업체에 도달하기 전에 OpenRouter의 서버를 거칩니다. 무료 티어의 속도 제한(rate limits)은 실질적입니다 (분당 20회 요청, 일일 200회 요청). 또한 OpenRouter의 라우팅 계층(routing layer)이 유발하는 가용성 및 지연 시간(latency)의 영향을 받습니다.

OmniRoute: 셀프 호스팅(Self-Hosted) 경로

OmniRoute는 더 새로운 오픈 소스(open-source) 대안입니다 (별 5.1K 개 및 상승 중). 이는 로컬에서 실행하는 셀프 호스팅 게이트웨이로, 160개 이상의 제공업체를 집계하며 그 중 50개 이상이 무료 티어를 제공합니다. 제공업체 수 외에 핵심적인 기능은 토큰 압축(token compression)입니다. OmniRoute의 RTK 및 Caveman 모드는 토큰 사용량을 15~95% 절감한다고 주장합니다.

OmniRoute는 또한 MCP 및 A2A 프로토콜을 네이티브로 지원합니다. 그리고 사용자의 기기에서 실행되기 때문에, 프롬프트는 모델 제공업체에 직접 도달하기 전까지 사용자의 네트워크를 절대 벗어나지 않습니다.

OpenRouter vs OmniRoute — OpenRouter는 호스팅된 서비스입니다: 설정이 필요 없지만, 속도 제한이 있는 무료 티어를 제공하며, 프롬프트가 해당 서버를 통과합니다. OmniRoute는 셀프 호스팅 인프라입니다: 설정이 더 많이 필요하지만, 상위 제공업체(upstream provider)의 제한 외에는 속도 제한이 없으며, 프롬프트가 사용자의 기기에서 모델 제공업체로 직접 라우팅됩니다.

코딩을 위한 최적의 무료 모델 (2026년 6월)

GLM-5.2 (Z.ai / Zhipu)

2026년 6월의 돌풍을 일으키는 모델입니다. GLM-5.2는 MIT 라이선스를 따르며, 1M 토큰의 컨텍스트 윈도우 (context window)를 가진 753B Mixture of Experts (MoE) 아키텍처를 사용하고, SWE-bench Pro에서 62.1%의 점수를 기록했습니다. 이는 실제 코딩 벤치마크에서 폐쇄형 프런티어 모델 (proprietary frontier models)과 경쟁할 수 있는 최초의 완전한 오픈 소스 모델입니다.

무료로 실행할 수 있는 곳:

OpenRouter: 표준 속도 제한 (rate limits)이 적용되는 무료 티어에서 사용 가능
Cloudflare Workers AI: 2026년 6월 16일 추가됨
Z.ai direct: 모델 제작사에서 무료 API 액세스를 제공

DeepSeek V4 Flash

한정된 프로모션 기간 동안 무료로 제공됩니다. 특히 다단계 문제 (multi-step problems)에서 강력한 추론 (reasoning) 능력을 보여줍니다.

Qwen3-Coder 480B

Alibaba의 특화된 코딩 모델입니다. 262K 컨텍스트 윈도우 (context window)를 가지며, 에이전틱 코딩 (agentic coding) 벤치마크에서 최첨단 (state-of-the-art) 성능을 보여줍니다. OpenRouter의 무료 티어에서 사용 가능합니다.

Devstral 2

Mistral의 경량 코딩 모델입니다. 빠른 완성 (completions), 간단한 편집, 그리고 보일러플레이트 (boilerplate) 생성에 빠르고 신뢰할 수 있습니다.

💡 라우팅 전략 (Routing strategy) — 속도를 위해 일상적인 작업은 Devstral 2 또는 DeepSeek V4 Flash로 지정하세요. 여러 파일에 걸친 리팩토링 (refactors)이나 복잡한 추론에는 GLM-5.2 또는 Qwen3-Coder를 예약해 두세요.

단계별 가이드: Claude Code + OpenRouter

이것은 "월 200달러 지불"에서 "0원 지불"로 가는 가장 빠른 경로입니다.

1. OpenRouter API 키 발급

openrouter.ai에서 가입하고 API 키를 생성하세요.

2. 환경 변수 (environment variables) 설정

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_API_KEY="sk-or-v1-your-key-here"
export ANTHROPIC_MODEL="z-ai/glm-5.2"

단 세 줄입니다. 이제 Claude Code는 모든 요청을 OpenRouter를 통해 라우팅합니다.

3. 네이티브 Anthropic 세션 로그아웃

claude /logout

4. 모델 선택

/model z-ai/glm-5.2
/model deepseek/deepseek-v4-flash
/model qwen/qwen3-coder-480b

5. 속도 제한 (Rate limits) 이해하기

무료 티어 (Free tier): 모델당 분당 20회 요청, 일일 200회 요청. 세 개의 모델을 사용하면 하루에 총 600회의 무료 요청을 사용할 수 있습니다.

⚠️ 속도 제한 팁 — 일일 200회 요청의 무료 티어 속도 제한은 계정당이 아닌 모델당 적용됩니다. 모델을 교체하며 사용하면 무료 사용 기간을 연장할 수 있습니다.

단계별 가이드: Claude Code + OmniRoute

1. OmniRoute 설치

git clone https://github.com/diegosouzapw/OmniRoute.git
cd OmniRoute
pip install -r requirements.txt

2. 제공자 (Providers) 설정

providers:
  - name: openrouter-free
    base_url: https://openrouter.ai/api/v1
...

3. 게이트웨이를 시작하고 Claude Code를 해당 게이트웨이로 지정

python omniroute.py --port 8080
export ANTHROPIC_BASE_URL="http://localhost:8080/v1"
export ANTHROPIC_API_KEY="omniroute-local"
...

단계별 가이드: Codex CLI + 무료 모델

Codex CLI의 Responses API 요구 사항은 번거로움을 더합니다. 번역 계층 (Translation layer)이 필요합니다.

옵션 A: OpenRouter BYOK — Knightli 가이드에서 OpenRouter의 BYOK 모드로 Codex CLI를 설정하는 방법을 설명합니다.

옵션 B: codeproxy-ai/cli — API 형식 간의 번역을 수행하는 로컬 프록시 (Local proxy)입니다. 커뮤니티 gist를 참조하세요.

옵션 C: OmniRoute — API 형식 번역을 기본적으로 처리합니다. Codex를 동일한 게이트웨이로 지정하세요.

ℹ️ Codex CLI 참고 사항 — Codex CLI의 Responses API 요구 사항은 Claude Code에는 없는 번거로움을 추가합니다. 비용이 가장 큰 고려 사항이라면, Claude Code의 더 간단한 게이트웨이 통합이 장점입니다.

무료 모델의 한계점

복잡한 다중 파일 리팩토링 (Multi-file refactors). 5개 이상의 파일에 걸쳐 조정된 변경이 필요한 작업은 무료 모델에서 일관성을 잃기 쉽습니다.

심층적인 아키텍처 추론 (Deep architectural reasoning). "이 모듈을 이벤트 소싱 (Event sourcing)을 사용하도록 재설계하세요"와 같은 요청은 무료 모델이 안정적으로 처리하기 어려운 패턴 이해 능력을 요구합니다.

매우 긴 에이전트 루프 (Very long agent loops). 각 도구 호출 (tool call)의 성공률이 최첨단 모델 (frontier model)에서 98%인 반면 무료 모델에서 92%라면, 10단계 워크플로우의 성공률은 82% 대 43%로 떨어집니다.

미묘한 버그 진단 (Subtle bug diagnosis). 버그가 경합 조건 (race condition), 오래된 캐시 (stale cache), 그리고 오프 바이 원 (off-by-one) 에러가 상호작용하는 경우, 무료 모델은 하나의 차원에만 집착합니다.

80/20 전략

무료 모델이 안정적으로 처리할 수 있는 일상적인 작업: 코드 완성 (completions), 단일 파일 수정 (single-file edits), 테스트 생성 (test generation), 보일러플레이트 (boilerplate), 문서화 (documentation), 간단한 버그 수정 (simple bug fixes).

유료 토큰 사용이 여전히 정당화되는 작업: 다중 파일 리팩토링 (multi-file refactors), 아키텍처 결정 (architecture decisions), 복잡한 디버깅 (complex debugging), 성능 최적화 (performance optimization), 보안 민감 코드 리뷰 (security-sensitive code review).

만약 사용량의 80%가 일상적인 작업이라면, 해당 작업들을 무료 모델로 전환함으로써 월 200달러의 비용을 월 40달러로 — 또는 무료 티어가 사용량을 모두 커버한다면 월 0달러로 줄일 수 있습니다.

운영자를 위한 체크리스트

OpenRouter로 시작하세요. 가입하고, API 키를 발급받고, 세 개의 환경 변수 (env vars)를 설정하세요. 5분 이내에 실행 가능합니다.
실제 워크로드를 테스트하세요. 하루 동안 무료 모델을 사용해 보세요. 본인만의 80/20 분할 비율을 기록하세요.
모델 사이클링 (model cycling)을 설정하세요. 세 개의 모델을 사용하면 하루에 600개의 무료 요청이 가능합니다.
더 많은 제어가 필요할 때 OmniRoute를 추가하세요. 토큰 압축 (token compression)과 자동 폴백 (automatic fallback) 기능을 갖춘 셀프 호스팅 게이트웨이입니다.
어려운 20%를 위해 최첨단 모델 (frontier model)을 항상 구성해 두세요.
Codex CLI를 사용하는 경우, 번역 레이어 (translation layer)를 조기에 설정하세요.

월 200달러의 구독료는 사라지지 않을 것입니다. 하지만 "비용을 지불하는 개발자"와 "비용 때문에 밀려나는 개발자" 사이의 벽에 문이 생겼습니다. 세 개의 환경 변수, 무료 API 키, 그리고 SWE-bench Pro에서 62.1%를 기록하는 모델. 이것이 바로 플레이북입니다.

원문 게시지: AgentConn