본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 31. 16:37

OpenRouter 무료 모델 8종 철저 비교——속도·품질·컨텍스트 길이 2026년판

요약

OpenRouter에서 제공하는 8종의 무료 모델을 속도, 품질, 컨텍스트 길이를 기준으로 비교 분석합니다. 비용 최적화를 위해 태스크별로 적절한 모델을 선택하는 라우팅 전략의 중요성을 강조합니다.

핵심 포인트

  • OpenRouter 무료 모델은 용도별로 성능 차이가 큼
  • Gemini 2.0 Flash는 다국어 품질이 매우 우수함
  • 비용 절감을 위해 태스크별 모델 라우팅 권장
  • 무료 모델은 SLA가 없으므로 유료 폴백 준비 필수
  • OpenRouter의 :free 모델은 2026년 현재 20개 이상 존재하지만, 실용 가능한 것은 8개 모델 정도 - 일본어 품질·레이턴시(Latency)·컨텍스트 길이(Context Length)의 3개 축으로 비교하면 용도별로 명확한 적재적소의 차이가 있음
  • 비용 최적화를 진지하게 하려면 「태스크 종류별로 모델을 전환하는 라우팅(Routing)」이 핵심

LLM API 비용은 제품 초기 단계나 개인 개발자에게 고민거리입니다.

OpenRouter는 여러 프로바이더의 모델을 단일 엔드포인트 (https://openrouter.ai/api/v1)로 호출할 수 있는 API 게이트웨이이지만, 그 안에는 :free 접미사가 붙은 무상 모델이 여러 개 존재합니다.

무료 모델에 대해 흔히 하는 오해는 "모두 비슷비슷할 것"이라는 생각입니다. 실제로는 속도·품질·제약 사항이 크게 다르며, **대충 사용하면 "왠지 모르게 응답이 느리다"라거나 "일본어가 깨진다"**와 같은 문제가 발생합니다.

본 기사에서는 2026년 5월 시점에서 OpenRouter 상에서 확인할 수 있는 주요 무료 모델을 3개 축으로 정리하고, 용도별 추천 구성을 해설합니다.

OpenRouter의 무료 모델은 다음과 같은 공통 제약 사항이 있습니다 (공식 문서 기준):

제약 항목내용
레이트 리밋 (Rate Limit)계정당 20 req/min (유료 크레딧이 있으면 완화 가능)
...

무료 범위는 "프로바이더가 시용·홍보 목적으로 제공하는 캐파시티(Capacity)"이므로, SLA는 실질적으로 제로입니다. 본 서비스 용도로는 반드시 유료 폴백(Fallback)을 준비하세요.

다음 8개 모델을 대상으로 합니다. 모두 model 파라미터에 지정할 수 있는 ID입니다.

#모델 ID (OpenRouter)베이스 모델컨텍스트 길이
1google/gemini-2.0-flash-exp:freeGemini 2.0 Flash1,048,576 tok
2meta-llama/llama-4-scout:freeLlama 4 Scout131,072 tok
3meta-llama/llama-4-maverick:freeLlama 4 Maverick131,072 tok
4qwen/qwen3-8b:freeQwen3 8B131,072 tok
5qwen/qwen3-30b-a3b:freeQwen3 30B-A3B (MoE)131,072 tok
6mistralai/mistral-7b-instruct:freeMistral 7B Instruct32,768 tok
7nousresearch/hermes-3-llama-3.1-8b:freeHermes 3 (Llama 3.1 베이스)131,072 tok
8microsoft/phi-4:freePhi-4 14B131,072 tok

주의: OpenRouter의 모델 카탈로그는 빈번하게 업데이트됩니다. 본 기사의 정보는 공식 카탈로그(openrouter.ai/models)에서 반드시 최신 상황을 확인해 주세요.

일본어 지시 이행·자연스러운 문체·한자/가나 변환의 안정성을 5단계로 평가합니다.

모델일본어 품질소감
Gemini 2.0 Flash⭐⭐⭐⭐⭐Google의 다국어 코퍼스(Corpus)가 강점. 구어체~기술 문서까지 안정적
...

TTFT = Time To First Token. 큐(Queue)의 혼잡도에 따라 차이가 있습니다.

모델TTFT 기준경향
Mistral 7B0.5~2s캐파시티가 커서 여유가 생기기 쉬움
Qwen3 8B0.8~3s소형 MoE로 고속. 혼잡 시에도 안정적
Phi-41~3s14B 치고는 빠름
Llama 4 Scout1~4s경량 버전이지만 무료 범위의 경쟁률이 높음
...

TTFT는 OpenRouter의 대시보드 (Latency 탭)에서 실시간으로 확인할 수 있습니다. 자동화 스크립트에서는 이곳을 정기적으로 폴링(Polling)하여 라우팅을 전환하는 것이 정석적인 테크닉입니다.

「공칭값(Nominal Value) = 실용값(Practical Value)」이 아니라는 점에 주의해야 합니다. 무료 티어에서는 긴 컨텍스트(Context)를 넣으면 큐잉(Queuing)이 길어지는 경향이 있습니다.

모델공칭 컨텍스트실용 상한선 기준
Gemini 2.0 Flash1M tok100K~300K가 현실적 (그 이상은 대기 시간 급증)
...
# 짧은 청크 (< 2K tok)를 배치 요약(Batch Summarization)하는 케이스
model = "qwen/qwen3-8b:free"
# 이유:
...
# 리포지토리 전체 리뷰나 큰 diff 분석
model = "google/gemini-2.0-flash-exp:free"
# 이유:
...
# 엔드 유저가 직접 보는 텍스트 생성
model = "qwen/qwen3-30b-a3b:free"
# 이유:
...
# README, API 문서의 영어 생성
model = "meta-llama/llama-4-maverick:free"
# 이유:
...

태스크 종류에 따라 모델을 자동으로 전환하는 최소 구성입니다.

import httpx
import os
OPENROUTER_API_KEY = os.environ["OPENROUTER_API_KEY"] # 환경 변수에서 가져옴
...

포인트: HTTP-Referer

헤더는 OpenRouter가 이용 통계에 사용하기 때문에 설정을 권장합니다 (공식 문서 참조). 필수 사항은 아니지만, 넣어두면 레이트 리밋(Rate Limit) 우선순위가 높아질 수 있습니다.

OpenRouter에는 모델 폴백(Model Fallback) 기능이 있습니다. models 파라미터에 배열을 전달하면, 맨 앞부터 순서대로 시도합니다.

# fallback이 포함된 요청 예시
json_body = {
"models": [
...

이를 통해 "무료 티어가 가득 찼다면 자동으로 다음 무료 모델을 시도하고, 그래도 안 된다면 유료 버전으로 폴백(Fallback)한다"는 견고한 구성을 만들 수 있습니다.

무료 모델을 풀 활용했을 경우의 시산 (20 req/min × 60 min × 24h = 28,800 req/day 상한):

용도1 req당 토큰하루 추정 요청 수월간 비용
채팅 봇 (소규모)~500 tok200$0
RAG 요약 파이프라인~2,000 tok1,000$0 (레이트 리밋 내)
배치 처리 (대규모)~4,000 tok5,000레이트 초과 → 유료 티어 필요

대규모 배치가 필요해진 단계에서, 무료 모델과 동일한 ID의 유료 버전 (:free를 제거한 것)으로 전환하기만 하면 코드를 변경하지 않고도 스케일링할 수 있습니다. 이것이 OpenRouter 라우팅의 가장 큰 강점입니다.

판단 기준추천 모델
일본어 품질 최우선qwen/qwen3-30b-a3b:free
...qwen/qwen3-8b:free or mistralai/mistral-7b-instruct:free
영어 문서 생성meta-llama/llama-4-maverick:free
수학·코드 추론microsoft/phi-4:free

무료 모델은 "품질 보증 없음"이라는 전제하에, 시작 단계(Prototype), 개인 개발, 비용 최적화의 첫 단계로서 매우 유효합니다. 특히 Qwen3 시리즈와 Gemini 2.0 Flash는 2026년 시점에서 유료 모델과 다를 바 없는 품질을 무료로 제공하고 있으므로, 사용하지 않을 이유가 없습니다.

모델 라인업은 월 단위로 변화하므로, 정기적으로 openrouter.ai/models를 확인하여 최신 :free 모델을 체크하는 습관을 들입시다.

  • OpenRouter 공식 문서
  • OpenRouter 모델 목록
  • Qwen3 기술 보고서 (Hugging Face)
  • Llama 4 발표 블로그 (Meta AI)
  • Gemini 2.0 Flash 릴리스 노트 (Google)
  • Phi-4 기술 보고서 (Microsoft Research)

✍️ 본 기사의 저자: 합동회사 지모랩 (Jimolab LLC)

지모랩 (Jimolab)은 하치오지를 거점으로 AI를 활용한 SaaS를 다수 개발하고 있습니다. 본 기사의 기술 검증 또한 그러한 개발 과정의 부산물입니다.

관심이 생기셨다면, 꼭 각 SNS 팔로우도 부탁드립니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0