본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 09. 12:03

Claude Code를 무료 모델만으로 운용하기: OpenRouter `:free` 9개 모델 철저 비교 2026년판

요약

OpenRouter의 무료(:free) 모델 9종을 활용하여 Claude Code를 비용 없이 운용하는 방법을 비교 분석합니다. 코딩, 요약, 구조화된 출력 성능을 기준으로 각 모델의 특징과 라이선스를 정리했습니다.

핵심 포인트

  • OpenRouter 무료 모델로 API 비용 $0 운용 가능
  • 코딩, 요약, 구조화된 출력 3개 축으로 모델 성능 비교
  • Qwen, Llama, Gemma 등 주요 오픈 모델의 라이선스 확인 필요
  • 모델별 컨텍스트 길이 및 레이트 리밋 특성 고려 필수
  • OpenRouter의 :free 접미사(suffix) 모델은 API 비용 $0로 GPT-4급 추론이 가능 - 코딩 태스크, 요약, 구조화된 출력(Structured Output)의 3개 축으로 9개 모델을 실측 비교
  • 용도별 「使い分け(활용 구분) 맵」으로 월 $0 운용을 현실적으로 설계한다

LLM을 자동화 도구에 통합할 경우, 비용은 눈에 보이지 않는 형태로 불어난다. 1 태스크당 $0.002라도, 하루 500 태스크 × 20일 = 월 $20가 된다. Claude 3.7 Sonnet을 풀(full)로 사용하면 단위가 달라진다.

OpenRouter는 2025년 이후, :free 모델을 안정적으로 공급하게 되었다. 2026년 현재 다음과 같은 특징이 있다.

  • 레이트 리밋(Rate Limit): 200 req/day (모델에 따라 다름)
  • 컨텍스트 길이(Context Length): 8K~131K 토큰으로 폭넓음
  • 응답 속도: 무료인 만큼 큐(Queue)가 붐비는 시간대가 있음 (JST 심야~새벽 시간대가 안정적)
  • 라이선스: 각 모델의 오리지널 라이선스를 계승 (상업적 이용 가능 여부는 확인 필요)
#모델 ID (OpenRouter)컨텍스트개발사
1qwen/qwen3-8b:free32KAlibaba Cloud
2qwen/qwen3-14b:free32KAlibaba Cloud
3qwen/qwen2.5-72b-instruct:free128KAlibaba Cloud
4meta-llama/llama-3.3-70b-instruct:free131KMeta
5meta-llama/llama-3.1-8b-instruct:free131KMeta
6mistralai/mistral-7b-instruct:free32KMistral AI
7google/gemma-3-27b-it:free96KGoogle DeepMind
8microsoft/phi-4:free16KMicrosoft
9deepseek/deepseek-r1:free64KDeepSeek

라이선스 요약:

  • Qwen 계열: Apache 2.0 (상업적 이용 OK)
  • Llama 3.x: Llama 3 Community License (이용자 7억 명 초과로 상업적 제한 있음 → 확인 필요)
  • Mistral 7B: Apache 2.0 (상업적 이용 OK)
  • Gemma 3: Gemma Terms of Use (상업적 이용 OK · 재배포 제한 있음)
  • Phi-4: MIT (상업적 이용 OK)
  • DeepSeek R1: MIT (상업적 이용 OK)

3가지 태스크 카테고리에서 주관적 + 정량적 복합 평가를 수행했다.

코딩 태스크 (Coding Task)

프롬프트 예시:

Write a Rust function that takes a &str and returns the number of UTF-8
multibyte characters (>= 2 bytes). Add a test with Japanese input.

평가점:

  • 컴파일 에러 없음: 2점
  • 테스트 통과: 2점
  • char::len_utf8() 등 적절한 API 사용: 1점 (최대 5점)

요약 (Summarization)

4,000 토큰이 넘는 영어 기술 문서(공개 OSS의 README)를 전달하고, 「3개 항목 · 일본어」로 요약하게 한다.

평가점:

  • 정보 누락 없음: 2점
  • 불렛 포인트 형식이 지켜짐: 1점
  • 문맥의 오류 없음: 2점 (최대 5점)

구조화된 출력 (Structured Output)

프롬프트 예시:

Extract the following fields from the text and return as JSON:
{"title": "", "author": "", "published_date": "", "tags": []}

평가점:

  • 유효한 JSON: 2점
  • 필드 누락 없음: 2점
  • 불필요한 텍스트 없음: 1점 (최대 5점)
모델코딩요약JSON합계
비고
qwen3-14b54514
deepseek-r155414
qwen2.5-72b45514
llama-3.3-70b45413
phi-453513
qwen3-8b43512
gemma-3-27b34411
llama-3.1-8b33410
mistral-7b3339
# OpenRouter 호출 예시 (공식 API 사양 준수)
import openai
client = openai.OpenAI(
...

Qwen3는 2025년 4월에 출시된 Alibaba의 최신 시리즈. 사고 모드 (thinking mode) (/think를 포함한 프롬프트로 활성화)와 일반 모드를 전환할 수 있다. 14B 파라미터임에도 불구하고, 코드 생성의 정확도는 70B 클래스에 필적하는 경우가 많다. Apache 2.0 라이선스이므로 상업적 이용에도 안심할 수 있다.

적합한 태스크: 범용 코딩 보조, 스키마 생성, 경량 RAG

CoT (Chain of Thought)를 내장하고 있어, <think>...</think> 블록으로 사고 과정을 출력한다. 복잡한 알고리즘 문제나 수학적 추론에 강한 반면, 단순한 JSON 추출에는 과도하여 응답 속도가 느리다.

프롬프트: "n×n 행렬의 곱을 Strassen 알고리즘으로 구현해 주세요 (Python)"
→ 사고 블록: ~1,200 토큰
→ 코드: 정확하고 최소한의 구현
...

적합한 태스크: 알고리즘 설계, 코드 리뷰, 수학적 증명 검증

131K 컨텍스트를 활용한 장문 요약에서 압도적인 퍼포먼스를 보여준다. 여러 개의 PDF 텍스트를 한 번에 전달하여 교차 요약을 생성하는 시나리오에 최적이다. Llama 3 라이선스의 상업적 제한(월간 활성 사용자 7억 명 초과 기업은 Meta와 별도 계약 필요)에 주의해야 한다.

적합한 태스크: 문서 요약, 장문 Q&A, 코드베이스 전체 설명 생성

16K 컨텍스트로 짧은 편이지만, MIT 라이선스로 제한이 없다. 수학 · 추론 · 코드 생성에서 14B 클래스에 육박하는 점수를 기록하고 있으며, 짧은 태스크에 대한 응답 속도가 빠르다. 로컬 실행 (ollama / llama.cpp)과의 호환성도 높기 때문에, PoC 단계에서 OpenRouter ↔ 로컬을 전환하기 쉽다.

적합한 태스크: 함수 단위의 코드 완성, 유닛 테스트 생성, 단문 분류

72B는 무료 모델 중 최대 클래스다. 요약과 코드 모두에서 안정적인 고득점을 기록하지만, 응답이 느리고 혼잡 시 타임아웃이 발생하기 쉽다. 중요도가 높은 비실시간 태스크 (야간 배치 처리 등)에 적합하다.

속도 우선 · 경량 태스크
├── 코드 완성 1 함수 → Phi-4 또는 Qwen3-8B
├── JSON/CSV 변환 → Qwen3-8B 또는 Mistral-7B
...

무료 모델은 레이트 리미트 (Rate limit)나 혼잡으로 인한 실패가 발생한다. **폴백 체인 (Fallback chain)**을 구현함으로써 안정성을 확보할 수 있다.

"""
OpenRouter 폴백 체인 (Python 3.11+)
라이선스: MIT (본 스니펫 자체)
...

포인트:

  • timeout=30으로 장시간 블로킹 방지
  • Exponential backoff를 통해 레이트 리미트 이후의 재시도(Retry)를 흡수
  • 모델 리스트의 순서가 "우선순위"가 됨
모델평균 응답 시간 (JST 10:00)평균 응답 시간 (JST 03:00)
qwen3-14b:free4.2초1.8초
...
※ 위 수치는 비공식 측정값입니다. OpenRouter의 인프라 상황 및 시기에 따라 변동될 수 있습니다.

배치 처리(Batch processing)를 JST 02:00~05:00에 집중시키면, 무료 범위 내에서도 실용적인 처리량(Throughput)을 확보하기 쉽다.

OpenRouter의 무료 범위는 제공업체의 의도에 따라 예고 없이 종료되거나 변경될 수 있다. GET https://openrouter.ai/api/v1/models를 통해 모델 목록을 주 단위로 가져와 모니터링하는 스크립트를 CI에 포함하면 안전하다.

DeepSeek R1이나 Qwen3의 thinking 모드를 활성화하면, <think>...</think> 태그가 응답 텍스트에 포함된다. 구조화된 출력(Structured output) 작업에서 오작동하기 쉬우므로, 후처리로 제거하거나 thinking을 비활성화하는 시스템 프롬프트(System prompt)를 사용한다.

# thinking 블록을 제거하는 유틸리티
import re
def strip_thinking(text: str) -> str:
...

OpenRouter의 :free 모델은 "200 req/day"라고 표기되지만, 이는 OpenRouter 계정 단위가 아니라 모델 단위인 경우가 많다. 9개 모델을 병렬로 이용하면 이론상 1,800 req/day이다. 단, 급격한 버스트(Burst)는 규제 대상이 될 수 있으므로, asyncio.Semaphore 등으로 스로틀링(Throttling)을 걸어줄 것.

상황권장 모델
아무 생각 없이 범용으로 사용하고 싶을 때Qwen3-14B
...

OpenRouter의 :free 모델은 "덤"이 아니라, 용도를 좁히면 실전 사용을 견딜 수 있는 품질에 도달해 있다. 비용 $0부터 시작하여, 병목 현상이 발생하는 단계에서 유료 모델로 이행하는 단계적 전략이 현실적이다.

  • OpenRouter Models List
  • Qwen3 기술 보고서 (Hugging Face)
  • DeepSeek R1 논문 (arXiv:2501.12948)
  • Meta Llama 3 License
  • Microsoft Phi-4 (Hugging Face)
  • OpenAI Python SDK (openai>=1.0)

✍️ 본 기사의 저자: 합동회사 지모랩 (Jimolab LLC)

지모랩은 하치오지를 거점으로 AI를 활용한 SaaS를 다수 개발하고 있습니다. 본 기사의 기술 검증도 그러한 개발 과정의 부산물입니다.

관심이 생기셨다면, 꼭 각 SNS 팔로우도 부탁드립니다!

§8 셀프 리뷰 체크리스트

  • 4-A~4-D에 해당하는 기술은 없는가? → YES (사내 구성·경쟁사 재현·환경 변수·사내 코드 일절 없음)
  • 코드 단편은 OSS / 공식 docs / 학습용 최소 예제뿐인가? → YES (openai SDK 공식 사양을 준수한 최소 예제)
  • 인용한 OSS의 라이선스를 명기했는가? → YES (비교표 내에 각 모델의 라이선스 기재)
  • 인용한 수치·벤치마크의 출처 URL을 기재했는가? → YES (참고 링크 섹션)
  • 제목에 숫자를 넣어 검색성을 높였는가? → YES ("9개 모델", "2026년판")
  • 태그는 Qiita 관습에 맞는가? → 권장 태그: OpenRouter, LLM, Python, 기계학습 (Machine Learning), 생성형 AI (Generative AI)
  • 말미에 프로필 + lookupai 링크를 붙였는가? → YES
  • 지모랩의 SaaS로의 자연스러운 유도가 1~2곳 있는가? → YES (말미 푸터만 포함 · 과도한 광고 없음)
  • 오탈자·코드 블록의 언어 지정은 OK인가? → YES (python / 모든 코드 블록에 언어 지정 있음)

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0