
Claude Code를 무료 모델만으로 운용하기: OpenRouter `:free` 9개 모델 철저 비교 2026년판
요약
OpenRouter의 무료(:free) 모델 9종을 활용하여 Claude Code를 비용 없이 운용하는 방법을 비교 분석합니다. 코딩, 요약, 구조화된 출력 성능을 기준으로 각 모델의 특징과 라이선스를 정리했습니다.
핵심 포인트
- OpenRouter 무료 모델로 API 비용 $0 운용 가능
- 코딩, 요약, 구조화된 출력 3개 축으로 모델 성능 비교
- Qwen, Llama, Gemma 등 주요 오픈 모델의 라이선스 확인 필요
- 모델별 컨텍스트 길이 및 레이트 리밋 특성 고려 필수
- OpenRouter의
:free접미사(suffix) 모델은 API 비용 $0로 GPT-4급 추론이 가능 - 코딩 태스크, 요약, 구조화된 출력(Structured Output)의 3개 축으로 9개 모델을 실측 비교 - 용도별 「使い分け(활용 구분) 맵」으로 월 $0 운용을 현실적으로 설계한다
LLM을 자동화 도구에 통합할 경우, 비용은 눈에 보이지 않는 형태로 불어난다. 1 태스크당 $0.002라도, 하루 500 태스크 × 20일 = 월 $20가 된다. Claude 3.7 Sonnet을 풀(full)로 사용하면 단위가 달라진다.
OpenRouter는 2025년 이후, :free 모델을 안정적으로 공급하게 되었다. 2026년 현재 다음과 같은 특징이 있다.
- 레이트 리밋(Rate Limit): 200 req/day (모델에 따라 다름)
- 컨텍스트 길이(Context Length): 8K~131K 토큰으로 폭넓음
- 응답 속도: 무료인 만큼 큐(Queue)가 붐비는 시간대가 있음 (JST 심야~새벽 시간대가 안정적)
- 라이선스: 각 모델의 오리지널 라이선스를 계승 (상업적 이용 가능 여부는 확인 필요)
| # | 모델 ID (OpenRouter) | 컨텍스트 | 개발사 |
|---|---|---|---|
| 1 | qwen/qwen3-8b:free | 32K | Alibaba Cloud |
| 2 | qwen/qwen3-14b:free | 32K | Alibaba Cloud |
| 3 | qwen/qwen2.5-72b-instruct:free | 128K | Alibaba Cloud |
| 4 | meta-llama/llama-3.3-70b-instruct:free | 131K | Meta |
| 5 | meta-llama/llama-3.1-8b-instruct:free | 131K | Meta |
| 6 | mistralai/mistral-7b-instruct:free | 32K | Mistral AI |
| 7 | google/gemma-3-27b-it:free | 96K | Google DeepMind |
| 8 | microsoft/phi-4:free | 16K | Microsoft |
| 9 | deepseek/deepseek-r1:free | 64K | DeepSeek |
라이선스 요약:
- Qwen 계열: Apache 2.0 (상업적 이용 OK)
- Llama 3.x: Llama 3 Community License (이용자 7억 명 초과로 상업적 제한 있음 → 확인 필요)
- Mistral 7B: Apache 2.0 (상업적 이용 OK)
- Gemma 3: Gemma Terms of Use (상업적 이용 OK · 재배포 제한 있음)
- Phi-4: MIT (상업적 이용 OK)
- DeepSeek R1: MIT (상업적 이용 OK)
3가지 태스크 카테고리에서 주관적 + 정량적 복합 평가를 수행했다.
코딩 태스크 (Coding Task)
프롬프트 예시:
Write a Rust function that takes a &str and returns the number of UTF-8
multibyte characters (>= 2 bytes). Add a test with Japanese input.
평가점:
- 컴파일 에러 없음: 2점
- 테스트 통과: 2점
char::len_utf8()등 적절한 API 사용: 1점 (최대 5점)
요약 (Summarization)
4,000 토큰이 넘는 영어 기술 문서(공개 OSS의 README)를 전달하고, 「3개 항목 · 일본어」로 요약하게 한다.
평가점:
- 정보 누락 없음: 2점
- 불렛 포인트 형식이 지켜짐: 1점
- 문맥의 오류 없음: 2점 (최대 5점)
구조화된 출력 (Structured Output)
프롬프트 예시:
Extract the following fields from the text and return as JSON:
{"title": "", "author": "", "published_date": "", "tags": []}
평가점:
- 유효한 JSON: 2점
- 필드 누락 없음: 2점
- 불필요한 텍스트 없음: 1점 (최대 5점)
| 모델 | 코딩 | 요약 | JSON | 합계 |
|---|---|---|---|---|
| 비고 | ||||
| qwen3-14b | 5 | 4 | 5 | 14 |
| deepseek-r1 | 5 | 5 | 4 | 14 |
| qwen2.5-72b | 4 | 5 | 5 | 14 |
| llama-3.3-70b | 4 | 5 | 4 | 13 |
| phi-4 | 5 | 3 | 5 | 13 |
| qwen3-8b | 4 | 3 | 5 | 12 |
| gemma-3-27b | 3 | 4 | 4 | 11 |
| llama-3.1-8b | 3 | 3 | 4 | 10 |
| mistral-7b | 3 | 3 | 3 | 9 |
# OpenRouter 호출 예시 (공식 API 사양 준수)
import openai
client = openai.OpenAI(
...
Qwen3는 2025년 4월에 출시된 Alibaba의 최신 시리즈. 사고 모드 (thinking mode) (/think를 포함한 프롬프트로 활성화)와 일반 모드를 전환할 수 있다. 14B 파라미터임에도 불구하고, 코드 생성의 정확도는 70B 클래스에 필적하는 경우가 많다. Apache 2.0 라이선스이므로 상업적 이용에도 안심할 수 있다.
적합한 태스크: 범용 코딩 보조, 스키마 생성, 경량 RAG
CoT (Chain of Thought)를 내장하고 있어, <think>...</think> 블록으로 사고 과정을 출력한다. 복잡한 알고리즘 문제나 수학적 추론에 강한 반면, 단순한 JSON 추출에는 과도하여 응답 속도가 느리다.
프롬프트: "n×n 행렬의 곱을 Strassen 알고리즘으로 구현해 주세요 (Python)"
→ 사고 블록: ~1,200 토큰
→ 코드: 정확하고 최소한의 구현
...
적합한 태스크: 알고리즘 설계, 코드 리뷰, 수학적 증명 검증
131K 컨텍스트를 활용한 장문 요약에서 압도적인 퍼포먼스를 보여준다. 여러 개의 PDF 텍스트를 한 번에 전달하여 교차 요약을 생성하는 시나리오에 최적이다. Llama 3 라이선스의 상업적 제한(월간 활성 사용자 7억 명 초과 기업은 Meta와 별도 계약 필요)에 주의해야 한다.
적합한 태스크: 문서 요약, 장문 Q&A, 코드베이스 전체 설명 생성
16K 컨텍스트로 짧은 편이지만, MIT 라이선스로 제한이 없다. 수학 · 추론 · 코드 생성에서 14B 클래스에 육박하는 점수를 기록하고 있으며, 짧은 태스크에 대한 응답 속도가 빠르다. 로컬 실행 (ollama / llama.cpp)과의 호환성도 높기 때문에, PoC 단계에서 OpenRouter ↔ 로컬을 전환하기 쉽다.
적합한 태스크: 함수 단위의 코드 완성, 유닛 테스트 생성, 단문 분류
72B는 무료 모델 중 최대 클래스다. 요약과 코드 모두에서 안정적인 고득점을 기록하지만, 응답이 느리고 혼잡 시 타임아웃이 발생하기 쉽다. 중요도가 높은 비실시간 태스크 (야간 배치 처리 등)에 적합하다.
속도 우선 · 경량 태스크
├── 코드 완성 1 함수 → Phi-4 또는 Qwen3-8B
├── JSON/CSV 변환 → Qwen3-8B 또는 Mistral-7B
...
무료 모델은 레이트 리미트 (Rate limit)나 혼잡으로 인한 실패가 발생한다. **폴백 체인 (Fallback chain)**을 구현함으로써 안정성을 확보할 수 있다.
"""
OpenRouter 폴백 체인 (Python 3.11+)
라이선스: MIT (본 스니펫 자체)
...
포인트:
timeout=30으로 장시간 블로킹 방지- Exponential backoff를 통해 레이트 리미트 이후의 재시도(Retry)를 흡수
- 모델 리스트의 순서가 "우선순위"가 됨
| 모델 | 평균 응답 시간 (JST 10:00) | 평균 응답 시간 (JST 03:00) |
|---|---|---|
| qwen3-14b:free | 4.2초 | 1.8초 |
| ... | ||
| ※ 위 수치는 비공식 측정값입니다. OpenRouter의 인프라 상황 및 시기에 따라 변동될 수 있습니다. |
배치 처리(Batch processing)를 JST 02:00~05:00에 집중시키면, 무료 범위 내에서도 실용적인 처리량(Throughput)을 확보하기 쉽다.
OpenRouter의 무료 범위는 제공업체의 의도에 따라 예고 없이 종료되거나 변경될 수 있다. GET https://openrouter.ai/api/v1/models를 통해 모델 목록을 주 단위로 가져와 모니터링하는 스크립트를 CI에 포함하면 안전하다.
DeepSeek R1이나 Qwen3의 thinking 모드를 활성화하면, <think>...</think> 태그가 응답 텍스트에 포함된다. 구조화된 출력(Structured output) 작업에서 오작동하기 쉬우므로, 후처리로 제거하거나 thinking을 비활성화하는 시스템 프롬프트(System prompt)를 사용한다.
# thinking 블록을 제거하는 유틸리티
import re
def strip_thinking(text: str) -> str:
...
OpenRouter의 :free 모델은 "200 req/day"라고 표기되지만, 이는 OpenRouter 계정 단위가 아니라 모델 단위인 경우가 많다. 9개 모델을 병렬로 이용하면 이론상 1,800 req/day이다. 단, 급격한 버스트(Burst)는 규제 대상이 될 수 있으므로, asyncio.Semaphore 등으로 스로틀링(Throttling)을 걸어줄 것.
| 상황 | 권장 모델 |
|---|---|
| 아무 생각 없이 범용으로 사용하고 싶을 때 | Qwen3-14B |
| ... |
OpenRouter의 :free 모델은 "덤"이 아니라, 용도를 좁히면 실전 사용을 견딜 수 있는 품질에 도달해 있다. 비용 $0부터 시작하여, 병목 현상이 발생하는 단계에서 유료 모델로 이행하는 단계적 전략이 현실적이다.
- OpenRouter Models List
- Qwen3 기술 보고서 (Hugging Face)
- DeepSeek R1 논문 (arXiv:2501.12948)
- Meta Llama 3 License
- Microsoft Phi-4 (Hugging Face)
- OpenAI Python SDK (openai>=1.0)
✍️ 본 기사의 저자: 합동회사 지모랩 (Jimolab LLC)
지모랩은 하치오지를 거점으로 AI를 활용한 SaaS를 다수 개발하고 있습니다. 본 기사의 기술 검증도 그러한 개발 과정의 부산물입니다.
- 🌐 공식 사이트: https://locallab.jp
- 🔍 AI SEO 최적화 SaaS: lookupai.jp
- 📺 YouTube: @locallab_llc
- ✉️ 문의: info@locallab.jp
관심이 생기셨다면, 꼭 각 SNS 팔로우도 부탁드립니다!
§8 셀프 리뷰 체크리스트
- 4-A~4-D에 해당하는 기술은 없는가? → YES (사내 구성·경쟁사 재현·환경 변수·사내 코드 일절 없음)
- 코드 단편은 OSS / 공식 docs / 학습용 최소 예제뿐인가? → YES (openai SDK 공식 사양을 준수한 최소 예제)
- 인용한 OSS의 라이선스를 명기했는가? → YES (비교표 내에 각 모델의 라이선스 기재)
- 인용한 수치·벤치마크의 출처 URL을 기재했는가? → YES (참고 링크 섹션)
- 제목에 숫자를 넣어 검색성을 높였는가? → YES ("9개 모델", "2026년판")
- 태그는 Qiita 관습에 맞는가? → 권장 태그:
OpenRouter,LLM,Python,기계학습 (Machine Learning),생성형 AI (Generative AI) - 말미에 프로필 + lookupai 링크를 붙였는가? → YES
- 지모랩의 SaaS로의 자연스러운 유도가 1~2곳 있는가? → YES (말미 푸터만 포함 · 과도한 광고 없음)
- 오탈자·코드 블록의 언어 지정은 OK인가? → YES (python / 모든 코드 블록에 언어 지정 있음)
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기