본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 31. 22:32

신용카드 없이 사용할 수 있는 2026년 9가지 무료 LLM API

요약

결제 정보 입력 없이 프로토타이핑이 가능한 9가지 무료 LLM API를 소개합니다. Groq, Cerebras, Gemini Flash 등 각 서비스의 실제 속도 제한과 컨텍스트 윈도우, 데이터 보안 정책을 직접 검증하여 정리했습니다.

핵심 포인트

  • 신용카드 등록 없이 가입 가능한 API 선별
  • Groq과 Cerebras는 빠른 속도와 OpenAI 호환성 제공
  • Gemini Flash는 100만 토큰의 대규모 컨텍스트 지원
  • 무료 티어 사용 시 프롬프트가 학습에 사용될 수 있음에 유의

1년 전 저는 OpenAI에 비용을 지불하지 않고 사용할 수 있는 11가지 무료 AI API를 정리했습니다. 이는 제가 게시한 글 중 가장 많이 읽힌 글이 되었습니다. 그래서 이번에는 더 엄격한 필터와 다른 질문을 가지고 2026년 버전으로 다시 준비했습니다.

"무료 티어 (Free tier)가 있는가?"가 아닙니다. 이제는 누구나 무료 티어를 가지고 있습니다. 진짜 질문, 즉 카드를 꺼내지 않고도 토요일에 실제로 프로토타이핑 (Prototyping)을 할 수 있을지를 결정하는 질문은 이것입니다: 결제 정보 없이 가입이 가능한가, 그리고 실제 업무에서도 버텨낼 수 있는가?

저는 2026-05-30에 제공업체의 문서를 한 줄씩 읽고 모든 엔드포인트 (Endpoint)에 핑 (Ping)을 보내며 9개를 확인했습니다. 작년 이후 두 가지가 변했습니다. Mistral은 카드 요구를 중단하는 대신 전화번호를 요구하기 시작했습니다. 그리고 Google은 Gemini 무료 티어를 조용히 강화했습니다 — 사람들이 여전히 인용하는 기존의 '하루 1,500회 요청'인 Flash 수치는 오늘날 2.5 Flash에서 제공되는 것과 다릅니다. 증거와 함께 아래에 자세한 내용을 정리했습니다.

제 관점에 대해 한 말씀 드리자면, 이는 칼럼 중 하나에서 중요하기 때문입니다. 저는 데이터 추출 파이프라인 (Data-extraction pipelines)을 운영하며 생계를 유지하고 있습니다: 32개의 게시된 스크래퍼 (Scrapers), 이들을 통한 평생 2,190회의 프로덕션 실행 (Production runs), 그중 가장 바쁜 것(Trustpilot 리뷰 스크래퍼)은 962회 실행을 기록하고 있습니다 (apify.com/knotless_cadence, 2026년 5월 기준 실제 누적 카운터). 이것은 LLM 벤치마크 (Benchmark)가 아닙니다. HTTP 스크래핑 (Scraping)입니다. 하지만 이는 모든 "최고의 무료 LLM API" 리스트 형식의 글들이 간과하는 한 가지를 저에게 가르쳐 주었습니다: 공표된 속도 제한 (Rate limit)과 당신의 실제 처리량 (Throughput)은 서로 다른 영역이라는 점입니다. 이에 대해서는 솔직하게 라벨링된 제한 사항 섹션에서 더 자세히 다루겠습니다.

요약 (TL;DR)

  • 속도를 원하시나요? Groq과 Cerebras입니다. 둘 다 OpenAI 호환(OpenAI-compatible)이며, 신용카드가 필요 없습니다.
  • HTML 페이지 전체를 집어넣을 수 있는 큰 컨텍스트 윈도우 (Context Window)를 원하시나요? Gemini Flash입니다. 100만(1M) 토큰을 지원하며, 이 정도 규모에서 여전히 유일한 무료 모델입니다.
  • 하나의 키로 여러 모델을 사용하고 싶으신가요? OpenRouter입니다. :free 접미사를 통해 수많은 모델을 제공하지만, 크레딧을 충전하기 전까지는 하루 50회 요청으로 제한됩니다.
  • 데이터 보안이 걱정되시나요? §"제가 못된 척하지 않을 부분" 섹션을 읽어보세요. 대부분의 무료 티어 (Free tier)는 사용자의 프롬프트(Prompt)를 학습에 사용할 수 있습니다. Gemini의 무료 티어는 이를 명시적으로 밝히고 있습니다.
  • 전체 비교 표는 아래에 있습니다. 급하시다면 본문은 건너뛰고 표를 북마크하세요.

검증 방법

단순한 느낌(Vibes)이 아닙니다. 2026년 5월 30일에 각 제공업체에 대해 다음 세 가지를 수행했습니다:

  1. 공식 속도 제한 (Rate-limits) / 가격 책정 (Pricing) 페이지를 열고, 누군가의 블로그에 적힌 숫자가 아닌 정확한 수치를 복사했습니다.
  2. OpenAI 호환 베이스 URL (OpenAI-compatible base URL)에 접속 가능한지 확인했습니다 (모두 활성 HTTP 상태를 반환했습니다. 키가 없는 상태에서의 401/403 응답도 활성 상태로 간주합니다).
  3. 가입 절차에서 명시된 요구 사항을 확인했습니다: 카드, 전화번호, 또는 없음.

표의 모든 숫자는 해당 정보가 출처로 삼은 문서 페이지로 연결됩니다. 만약 어떤 제공업체가 카드 요구 방식으로 변경했다면, 목록에서 제외하고 교체했습니다. 9개 업체 중 변경된 곳은 없었으나, 두 곳은 대신 전화번호나 GitHub 계정을 요구하고 있으며, 이 부분은 별도로 표시해 두었습니다.

제가 간과할 수 없는 주의 사항이 하나 있습니다: 무료 티어는 변경됩니다. 이것은 2026년 5월 30일 기준의 스냅샷(Snapshot)이지 계약이 아닙니다. 무언가를 구축하기 전에 반드시 제공업체의 자체 페이지를 확인하십시오.

비교 표

제공업체무료 제한신용카드 필요?OpenAI 호환?최적의 용도
Google Gemini (AI Studio)2.5 Flash 기준 ~10 RPM, ~250 RPD; 분당 250K 토큰; 1M 토큰 컨텍스트아니요부분적 (/v1beta/openai/)긴 입력값 — 페이지 전체, 문서 전체
...

출처는 아래 제공업체 섹션에 행당 하나씩 기재되어 있습니다.

9가지 업체와 각각의 주의 사항

1. Google Gemini (AI Studio) — 대규모 컨텍스트용

Gemini의 무료 티어(Free tier)는 여전히 **100만 토큰의 컨텍스트 윈도우 (Context window)**를 제공하는 유일한 카드 미등록 옵션이며, 이것이 제가 추출 작업(Extraction work)을 위해 Gemini를 최상단에 유지하는 이유입니다. 지저분한 HTML 페이지 전체를 프롬프트에 던져 넣어도 청킹 (Chunking)을 고민할 필요가 없습니다.

주의할 점은, 그리고 이것이 작년 이후 가장 큰 변화인데, 제한 사항이 더 엄격해졌다는 것입니다. 사람들이 복사해서 붙여넣던 "일일 1,500회 요청" 수치는 이전의 Flash 모델 기준이었습니다. 현재 Gemini 2.5 Flash의 경우, 모델 간 공유되는 분당 250K 토큰 상한선과 함께 대략 분당 10회 요청 (10 RPM) 및 일일 수백 회의 요청 수준을 보입니다. 수치는 정확한 모델에 따라 다르며 Google이 수시로 조정하므로, AI Studio에서 프로젝트의 할당량 (Quota)을 확인하십시오. 카드 등록은 필요 없습니다. (rate limits doc)

OpenAI 호환 여부? 부분적으로 지원합니다 — generativelanguage.googleapis.com/v1beta/openai/를 통해 가능합니다. 베이스 URL (Base-URL)을 교체하면 기존 OpenAI 클라이언트를 사용할 수 있지만, 일부 기능은 깔끔하게 매핑되지 않습니다.

2. Groq — 제가 가장 먼저 선택할 옵션

Groq는 이 목록에서 가장 쉽게

Cerebras는 gpt-oss-120b와 같은 모델에 대해 카드 등록 없이 매일 100만 토큰을 무료로 제공합니다. 분당 제한 사항은 보기보다 엄격합니다. 문서에 따르면 무료 체험판은 5 RPM, 분당 30,000 토큰, 일일 100만 토큰으로 제한됩니다. (rate limits doc)

두 가지 솔직한 주의사항이 있습니다. "일일 100만 토큰"은 매우 커 보이지만, 긴 HTML 페이지 하나가 수만 토큰에 달할 수 있다는 점을 기억해야 합니다. 입력값이 클 경우 토큰 기반 예산은 요청 기반 예산보다 훨씬 빠르게 소진됩니다. 또한, 인프라를 확장하는 동안 일부 모델의 무료 티어 컨텍스트 길이(Context length)가 헤드라인에 명시된 것보다 훨씬 낮게 제한되기도 했습니다. api.cerebras.ai/v1에서 OpenAI 호환이 가능합니다. 짧고 빠른 호출에는 훌륭하지만, 문서 전체를 밀어 넣기에는 덜 이상적입니다.

4. OpenRouter — 다양한 모델, 하나의 키, 그리고 하나의 각주

OpenRouter는 편의성에 초점을 맞춘 선택지입니다. 하나의 OpenAI 호환 키만 있으면 되며, :free 접미사가 붙은 모든 모델은 비용이 들지 않습니다. 2026년 5월 30일 기준으로 카탈로그에는 350개 이상의 모델이 있었고, 그중 수십 개가 :free 태그를 달고 있었습니다(DeepSeek, Gemma, Qwen 변형 모델 등). 따라서 여러 키를 관리할 필요 없이 모델들을 A/B 테스트할 수 있는 저렴한 방법입니다.

사람들을 당황하게 만드는 각주가 하나 있습니다. 계정 크레딧이 10달러 미만인 경우, 무료 모델은 20 RPM이지만 하루에 단 50번의 요청만 가능합니다. 10달러만 충전하면 하루 1,000회로 급증합니다. 시작할 때 카드는 필요 없지만, 이 제한은 무료 상태를 유지하기 위해 지불해야 하는 대가입니다. (docs) (free models list)

5. Mistral La Plateforme — 이제 카드가 아닌 전화번호를 요구합니다

작년에 Mistral은 깔끔한 "카드 미요구" 방식이었습니다. 지금도 그렇습니다. 하지만 Experiment 티어를 활성화하려면 이제 인증된 전화번호가 필요합니다. 이것이 거래 조건입니다. 그 대가로 코딩용 Codestral을 포함한 모든 모델에 대해 속도 제한이 적용되는 매우 관대한 월 약 10억 토큰을 제공받습니다. api.mistral.ai/v1에서 OpenAI 호환이 가능합니다. 프랑스에 호스팅되므로, EU 데이터 거주성(Data residency)이 중요하다면 유의할 만한 요소입니다. (tier docs)

6. GitHub Models — 이미 GitHub 계정이 있다면 무료

코드를 작성한다면 이미 자격 증명(credential)을 가지고 있는 셈입니다. GitHub Models는 현재 퍼블릭 프리뷰(public preview) 단계로, 카드 등록 없이 무료로 사용할 수 있으며, models.github.ai/inference를 통해 OpenAI 호환(OpenAI-compatible) 방식으로 제공됩니다. 또한 GPT, Llama, Phi, DeepSeek, Mistral, Cohere 등 매우 폭넓은 모델 라인업을 하나의 토큰으로 사용할 수 있다는 장점이 있습니다. 속도 제한(Rate limits)은 계층별로 적용됩니다. 무거운 모델의 경우 하루 약 50회 요청이 가능하며, 가벼운 모델은 더 많은 요청이 가능합니다. 다만 프리뷰 단계의 제한 사항은 변경될 수 있음을 명시하고 있습니다. (docs) 생태계를 벗어나지 않고 리포지토리(repo)나 액션(Action)에 AI를 연결하기에 좋습니다.

7. Cohere — 리랭크(rerank) 및 임베딩(embed) 전문가

Cohere는 챗봇을 실행하기 위한 용도는 아니지만, 파이프라인(pipeline) 구축을 위해 반드시 챙겨두어야 할 서비스입니다. 트라이얼 키(trial key)는 카드 등록이 필요 없으며, 리랭크(rerank) 및 임베딩(embedding) 엔드포인트는 추출 시스템의 검색(retrieval) 단계를 수행할 때 진정으로 강력한 성능을 발휘합니다. 트라이얼 제한 사항은 다음과 같습니다: 채팅 요청 분당 20회, 월간 API 호출 1,000회, 리랭크 분당 10회, 임베딩 분당 2,000개 입력. (rate limits doc) /v2/ API를 통해 부분적인 OpenAI 호환성을 제공합니다.

8. Hugging Face Inference — 하나의 라우터, 다양한 백엔드

Hugging Face의 Inference Providers는 router.huggingface.co/v1을 통해 수십 개의 백엔드(Groq, Cerebras, Together, SambaNova 등) 앞에 **단일 OpenAI 호환 라우터(single OpenAI-compatible router)**를 배치합니다. 무료 계정에는 매월 크레딧 할당량이 제공되며, 카드 등록 없이 HF 토큰으로 인증합니다. (docs) 멋진 점은 제공자 장애 조치(failover) 기능입니다. 모델 ID 뒤에 :fastest 또는 :cheapest를 붙이면 자동으로 최적의 경로로 라우팅됩니다. 무료 크레딧은 그리 넉넉하지 않으므로, 샘플러(sampler) 용도로 사용해야 하며 무한한 샘물처럼 취급해서는 안 됩니다.

9. Together AI — 트라이얼 크레딧에 대한 솔직한 언급

Together AI는 조금 다른 _종류_의 무료이기 때문에 별표(*)를 붙여 포함합니다. 앞서 언급한 8개 서비스는 정기적인 무료 티어 (Free Tier)를 제공합니다. 반면 Together는 가입 시 카드 등록 없이 사용할 수 있는 **한정된 트라이얼 크레딧 (Finite Trial Credit)**을 제공합니다 (금액은 프로모션에 따라 변동되었습니다). OpenAI와 호환되며 Llama 4, DeepSeek, Qwen, Mixtral 등 200개 이상의 오픈 웨이트 (Open-weight) 모델에 접근할 수 있습니다. (rate limits doc) 크레딧을 다 쓰면 결제하기 전까지는 더 이상 사용할 수 없습니다. 즉, 주말 동안 모델들을 테스트해 보기에는 훌륭하지만, 지속적인 무료 공급원은 아닙니다. 이 점을 명시하는 이유는, 그렇지 않은 척하는 것이 이런 리스트들에 대한 여러분의 신뢰를 잃게 만드는 방식이기 때문입니다.

실제 용도에 따른 선택 가이드

"상황에 따라 다릅니다"라는 말은 생략하겠습니다. 제가 내린 결정은 다음과 같습니다:

  • 빠르게, 지금 당장 필요하다 → Groq. 즉시 발급되는 키, 바로 적용 가능한 SDK.
  • 전체 페이지나 문서를 입력해야 한다 → Gemini Flash. 1M 컨텍스트 (Context)를 지원하는 유일한 무료 모델입니다.
  • 저렴하게 10개의 모델을 비교하고 싶다 → OpenRouter :free, 하나의 키로 해결. 단, 10달러를 결제하기 전까지는 하루 50회 제한이 있다는 점을 기억하세요.
  • 데이터가 반드시 EU 내에 머물러야 한다 → Mistral (프랑스 호스팅). 전화번호 인증이 필수 조건입니다.
  • 검색 파이프라인 (Retrieval Pipeline) 내에서 리랭크 (Rerank)나 임베딩 (Embeddings)이 필요하다 → Cohere 트라이얼 또는 Hugging Face의 라우터 (Router).
  • 이미 GitHub를 사용 중이다 → GitHub Models. 이미 가지고 있는 인증 정보를 그대로 사용하면 됩니다.
  • 결제하기 전에 200개의 오픈 모델을 맛보고 싶다 → Together AI의 트라이얼 크레딧.

제가 숨기지 않을 사실 (한계점)

이 섹션은 일반적인 리스트 형식의 글들이 건너뛰는 부분이며, 그렇기에 여러분이 가장 읽고 싶어 할 부분입니다.

"오늘 카드가 필요 없다"는 것이 "영원히 카드가 필요 없다"는 뜻은 아닙." 무료 티어는 변합니다. Mistral은 전화번호 인증 단계를 추가했습니다. Google은 Gemini의 요청 제한 (Request Caps)을 강화했습니다. 이 두 가지 모두 지난 12개월 사이에 일어난 일입니다. 위에 언급된 모든 내용은 2026-05-30 기준으로 사실이며, 이를 바탕으로 제품을 구축하기 전에는 반드시 제공업체의 공식 페이지를 다시 확인하시기 바랍니다.

대부분의 무료 티어(Free tier)는 사용자의 프롬프트를 학습에 사용할 수 있습니다. Gemini의 무료 티어는 무료 티어 콘텐츠가 Google 제품을 개선하는 데 사용될 수 있다고 명시적으로 밝히고 있으며, 유료 티어에서는 이 기능을 끌 수 있습니다. 다른 제공업체들도 약관 어딘가에 유사한 조항을 숨겨두고 있습니다. 만약 고객 데이터나 민감한 정보를 추출하고 있다면, 무료 티어는 적절한 도구가 아닙니다. 단순히 속도 제한(Rate limit)만 보지 말고, 각 제공업체의 데이터 정책을 읽어보십시오.

요청 제한(Request limit)은 처리량(Throughput)이 아니라 천장입니다. 이 부분은 제가 스크래핑(Scraping)을 했던 경험이 LLM 문제에 실제로 도움이 되는 지점입니다. 수백 페이지에 걸쳐 추출 작업을 수행할 때, 공지된 "일일 14,400회 요청"과 긴 입력 작업(Long-input job)을 지속할 수 있는 실제 수치는 서로 다릅니다. 일일 한도는 작업이 유용해지는 바로 그 시점에 딱 맞춰 제한되는 경향이 있습니다. Cerebras의 일일 100만 토큰과 같은 토큰 기반 예산은 훨씬 더 빨리 소진됩니다. 왜냐하면 긴 HTML 페이지 하나는 하나의 "요청"이 아니라 수만 개의 토큰이기 때문입니다. 저는 여기서 의도적으로 주의를 기울이고 있습니다. 저는 이 9개 제공업체에 대해 통제된 토큰/초(tok/s) 벤치마크를 수행하지 않았으며, 수행한 것처럼 인용하지도 않을 것입니다. 벤더(Vendor)들이 광고하는 속도 수치는 짧은 출력물(Short outputs)을 기준으로 측정된 것이며, 긴 컨텍스트 추출 작업(Long-context extraction job)은 다르게 작동합니다. 무료 티어는 프로덕션(Production)의 기반이 아니라, 프로토타입(Prototype) 및 일시적인 확장 레버(Burst lever)로 취급하십시오.

무료 모델은 순환하며 지원이 중단(Deprecated)됩니다. OpenRouter의 :free 목록과 프리뷰 제공업체(특히 GitHub Models)는 별다른 공지 없이 모델을 변경합니다. 위의 목록은 해당 날짜에는 정확하지만, 다음 분기에도 정확하다는 보장은 없습니다.

클라우드를 전혀 사용하고 싶지 않다면, 그것은 별도의 포스팅 주제입니다. 저는 Cloudflare Workers AI와 Ollama를 사용하여 모델을 로컬에서 실행하는 방법을 다른 곳에서 다루었습니다. 엣지(Edge) 및 로컬(Local)은 보너스 트랙이며, 이번 9가지 목록에는 포함되지 않습니다.

60초 안에 시도해보기

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0