AI 에이전트 비용을 월 0달러로 만드는 무료 LLM 조합

지난 1년 동안 저는 많은 사람들이 AI 에이전트 (AI agents)를 설정하는 것을 도왔습니다. "어떻게 시작하나요?"라는 질문 다음으로 가장 많이 나오는 질문은 항상 "비용이 얼마나 들까요?"입니다.

2026년 6월 기준 솔직한 답변은 이렇습니다: 말 그대로 비용이 전혀 들지 않을 수도 있습니다.

"7일간의 무료 체험" 같은 것이 아닙니다. 실제로 업무를 수행하는 진짜 에이전트를 무기한으로, 매월 실제로 0달러에 운영하는 것입니다. 비결은 어떤 LLM (Large Language Model) 제공업체가 에이전트를 구동할 수 있을 만큼 충분히 관대한 무료 티어 (free tiers)를 제공하는지, 그리고 그것들을 어떻게 적절하게 구성하는지를 아는 것입니다.

제가 테스트한 네 가지 조합과 실제로 얻을 수 있는 것, 그리고 각각을 설정하기 위한 구성 방법을 소개합니다.

1. Google Gemini Flash: 작업의 핵심 (the workhorse)

현재 에이전트 워크로드 (workloads)에 있어 Gemini의 무료 티어는 가장 관대한 옵션입니다.

$0로 얻을 수 있는 것:

Gemini 2.5 Flash: 일일 1,500회 요청, 분당 10회 요청
Gemini 2.5 Flash-Lite: 일일 1,500회 요청, 분당 15회 요청
100만 토큰 컨텍스트 윈도우 (context window) (네, 무료 티어에서도 가능합니다)
신용카드 불필요

일일 1,500회 요청은 25시간 동안 쉬지 않고 분당 약 1회 요청을 보내는 수준입니다. 아침 브리핑, 이메일 분류 (email triage), 또는 일정 관리 (calendar management)를 수행하는 개인용 에이전트의 경우, 바쁜 날에도 아마 50~100회 정도의 요청만 사용할 것입니다. 한계치에는 훨씬 못 미치는 수준이죠.

설정하려면 Google AI Studio에서 무료 API 키를 받으세요. 결제 계정은 필요하지 않습니다.

# .env 또는 설정 파일
GOOGLE_API_KEY=your_key_here
MODEL=gemini-2.5-flash

OpenClaw 사용자의 경우, openclaw.json 모델 설정은 다음과 같습니다:

{
  "provider": "google",
  "model": "gemini-2.5-flash",
...

주의사항: 무료 티어에서는 Google이 모델 개선을 위해 사용자의 프롬프트 (prompts)를 사용할 수 있습니다. 에이전트를 통해 민감한 데이터를 전송하고 있다면 이 점이 중요합니다. 만약 에이전트가 날씨를 확인하거나 뉴스를 요약하는 용도라면, 아마 큰 문제는 없을 것입니다.

나의 의견: 이것은 가장 완벽한 "설정 후 방치(set it and forget it)" 옵션입니다. Flash는 빠르고 유능하며, 도구 호출 (tool calling)을 잘 처리합니다. 또한 하루 1,500회의 요청은 대부분의 개인용 에이전트가 필요로 하는 양보다 훨씬 많습니다.

2. Groq: 속도의 괴물

Groq는 추론 (inference)을 위해 특별히 설계된 커스텀 LPU 칩에서 작동합니다. 그 결과는 터무니없이 빠른 응답입니다. 일부 모델에서는 초당 500개 이상의 토큰 (tokens)을 생성합니다. 당신의 에이전트가 즉각적으로 반응하는 것처럼 느껴질 것입니다.

$0로 얻을 수 있는 것:

플랫폼의 모든 모델에 대한 액세스 (Llama 4 Scout, Llama 3.3 70B, Qwen3 32B, GPT-OSS 등)
분당 30회 요청
모델에 따라 하루 1,000회에서 14,400회 요청
신용카드 불필요

일일 제한량은 어떤 모델을 선택하느냐에 따라 달라집니다. Llama 3.1 8B는 하루 14,400회 요청이 가능합니다 (가장 관대합니다). Llama 3.3 70B는 하루 1,000회입니다. Llama 4 Scout는 하루 1,000회 요청이 가능하지만 분당 30,000 토큰을 제공하며, 이는 긴 에이전트 대화에 매우 좋습니다.

console.groq.com/keys에서 무료 키를 받으세요. 이메일 가입 후 30초면 끝납니다.

# Your .env or config
GROQ_API_KEY=your_key_here
MODEL=llama-3.3-70b-versatile

OpenClaw의 경우:

{
  "provider": "groq",
  "model": "llama-3.3-70b-versatile",
...

주의사항: Groq는 오픈 소스 (open-source) 모델만 실행합니다. GPT-4, Claude, Gemini는 사용할 수 없습니다. 만약 프런티어 폐쇄형 모델 (frontier closed-source models)이 필요하다면 Groq가 정답은 아닙니다. Groq는 대체재가 아니라 보완재입니다.

나의 의견: 만약 당신의 에이전트가 즉각적인 반응성(음성 인터페이스, 실시간 채팅, 빠른 조회 등)을 갖춰야 한다면, Groq는 타의 추종을 불허합니다. 70B 모델은 대부분의 에이전트 작업을 잘 처리하며, 그 속도 덕분에 에이전트와의 상호작용이 실제로 즐거워집니다.

3. OpenRouter: 무료 모델 뷔페

OpenRouter는 수십 개의 제공업체로부터 모델을 모아 제공하며, 순환되는 무료 모델 선택지를 제공합니다. 2026년 6월 기준으로, 신용카드 없이 사용할 수 있는 27개 이상의 무료 모델이 있습니다.

$0로 얻을 수 있는 것:

DeepSeek R1, Llama 4 Maverick, Qwen3 Coder, Hermes 3, GPT-OSS 등을 포함한 27개 이상의 무료 모델
무료 모델 전반에 걸쳐 분당 20회 요청 가능
모델당 일일 200회 요청 가능
신용카드 불필요
요청에 대해 사용 가능한 최적의 무료 모델을 선택하는 openrouter/free를 통한 자동 라우팅 (Auto-routing)

핵심 기능은 openrouter/free 메타 모델 (meta-model)입니다. 에이전트가 이 모델을 가리키도록 설정하면, OpenRouter가 각 요청을 사용 가능하고 적절한 무료 모델로 자동으로 라우팅합니다. 모델 선택에 대한 고민이 필요 없습니다.

openrouter.ai에서 가입하고 API 키를 생성하세요. 무료 모델 사용을 위해 결제 정보는 필요하지 않습니다.

# .env 또는 설정 파일
OPENROUTER_API_KEY=your_key_here
MODEL=openrouter/free

OpenClaw의 경우 (OpenRouter의 OpenAI 호환 엔드포인트 사용):

{
  "provider": "openrouter",
  "model": "openrouter/free",
...

자동 라우팅 대신 특정 무료 모델을 사용하고 싶으신가요? 모델 ID 뒤에 :free를 붙이세요:

# 특정 무료 모델 사용
MODEL=deepseek/deepseek-r1-distill:free
# 또는
...

주의사항: 무료 모델은 순환됩니다. 오늘 무료인 모델이 다음 달에는 무료가 아닐 수도 있습니다. 제공업체가 생기고 사라짐에 따라 사용 가능한 특정 모델도 변경됩니다. 특정 무료 모델이 영원히 무료로 유지될 것이라고 가정하고 프로덕션 워크플로우 (production workflow)를 구축하지 마세요.

나의 의견: 다양성을 원하고 실험할 수 있는 능력을 원한다면 최고의 선택지입니다. 자동 라우팅은 진정으로 영리합니다. 반면, 예측 가능성이 필요하다면 최악의 선택지입니다. 무료 모델 목록이 계속 바뀌기 때문입니다.

4. DeepSeek: 무료는 아니지만, 사실상 무료

DeepSeek V4 Flash의 비용은 입력 토큰 100만 개당 $0.14, 출력 토큰 100만 개당 $0.28입니다. 이를 실제 수치로 설명해 보겠습니다.

전형적인 에이전트 상호작용은 총 약 1,000 토큰(입력 + 출력)입니다. DeepSeek의 요율을 적용하면, 이러한 상호작용 1,000회에 비용은 대략 $0.42입니다. 즉, 1,000개의 에이전트 작업을 50센트 미만으로 수행할 수 있다는 뜻입니다.

얻을 수 있는 것:

가입 시 500만 개의 무료 토큰 제공 (신용카드 불필요)
이후 V4 Flash 기준 100만 토큰당 $0.14/$0.28
100만 토큰의 컨텍스트 윈도우 (Context Window)
속도 제한 없음 (처리 가능한 모든 요청을 수행함)
반복되는 프롬프트 비용을 최대 98%까지 낮춰주는 자동 캐싱 (Automatic Caching)

가입 시 제공되는 500만 개의 무료 토큰은 단 1달러도 쓰기 전에 약 5,000번의 에이전트 상호작용을 수행하기에 충분합니다. 그 이후에는 일반적인 개인 에이전트 사용자가 한 달에 $1에서 $5 정도를 지출합니다.

platform.deepseek.com에서 키를 받으세요. 이메일로 가입하며, 무료 토큰 지급을 위해 신용카드가 필요하지 않습니다.

# Your .env or config
DEEPSEEK_API_KEY=your_key_here
MODEL=deepseek-v4-flash

OpenClaw의 경우:

{
  "provider": "deepseek",
  "model": "deepseek-v4-flash",
...

주의사항: DeepSeek은 중국에 기반을 두고 있습니다. 사용 사례에서 데이터 거주성 (Data Residency)이 중요하다면 이 점을 고려하십시오. 또한, "사실상 무료"라는 프레임은 개인용 또는 가벼운 사용에만 해당됩니다. 만약 매일 수천 건의 요청이 발생하는 비즈니스를 운영한다면 비용이 쌓이겠지만, 여전히 다른 대안들보다는 훨씬 저렴합니다.

나의 의견: 현재 시장에서 달러당 최고의 품질 비율을 보여줍니다. V4 Flash는 가격대 대비 성능이 매우 뛰어납니다. 무료 토큰이 소진된 후 한 달에 몇 달러 정도를 쓰는 것이 괜찮다면, 이 모델은 아마도 이 목록에서 가장 강력한 모델일 것입니다.

치트 코드: 모델 라우팅 (Model Routing)

수개월 동안 에이전트를 운영해 온 사람들이 실제로 하는 방식은 다음과 같습니다. 그들은 단 하나의 모델만 선택하지 않습니다. 서로 다른 작업에 서로 다른 모델을 사용합니다.

개념은 간단합니다. 단순한 작업(캘린더 확인, 빠른 조회, 짧은 텍스트 요약)에는 저렴하거나 무료인 모델을 사용하고, 어려운 작업(긴 콘텐츠 작성, 복잡한 추론, 다단계 계획)에는 더 나은 모델을 사용하는 것입니다.

단순 작업  →  Gemini Flash 또는 Groq Llama 8B   →  무료
중간 작업  →  Groq Llama 70B 또는 DeepSeek V4   →  무료 또는 거의 무료
어려운 작업  →  DeepSeek V4 Flash (thinking mode) →  몇 푼 안 되는 비용

대부분의 에이전트 작업은 단순합니다. 예를 들어, 에이전트가 하루 동안 수행하는 작업의 80%는 매우 직관적입니다. 이는 작업량의 80%는 무료 티어 (Free tier)에서 실행되고, 나머지 20%는 DeepSeek을 통해 한 달에 약 1달러 정도의 비용만 발생한다는 것을 의미합니다.

어떤 프레임워크 (Frameworks)는 모델 라우팅 (Model routing)을 자체적으로 처리합니다. 다른 것들은 수동 설정 (Manual config)이 필요합니다. 어느 쪽이든 원칙은 동일합니다. "오늘 내 일정에 무엇이 있지?"라는 질문을 "이 50페이지짜리 계약서를 분석해줘"라는 질문에 사용하는 것과 동일한 모델로 보내는 일을 멈추는 것입니다.

플랫폼 관점 (설정 불필요)

위의 모든 내용은 여러분이 에이전트를 셀프 호스팅 (Self-hosting) 한다는 가정하에 작성되었습니다. API 키를 설정하고, 구성을 관리하며, 최신 상태를 유지하는 작업 말입니다.

이 모든 과정을 건너뛰고 싶다면, BetterClaw의 무료 플랜을 사용해 보세요. 위에서 언급한 제공업체 중 하나로부터 받은 API 키를 붙여넣기만 하면 에이전트가 바로 실행됩니다. Docker도, VPS도, 설정 파일도 필요 없습니다. 하나의 에이전트, 무제한 작업, 모든 기능 포함, 신용카드 불필요. 말 그대로 BetterClaw의 무료 플랜을 Gemini의 무료 API 키와 결합하면, 총 월 0달러로 완전히 기능하는 AI 에이전트를 가질 수 있습니다. 무기한으로 말이죠.

빠른 비교 표

제공업체	일일 무료 요청 수	최적의 모델 (무료)	속도	신용카드 필요 여부
Gemini	1,500	Gemini 2.5 Flash	빠름	아니오
...

90일 후 실제로 작동하는 것

저는 수많은 에이전트 설정들이 생겨나고 사라지는 것을 지켜봐 왔습니다. 두 달 이상 살아남는 설정들은 하나의 패턴을 공유합니다. 하나의 에이전트, 한 개에서 세 개의 기술 (Skills), 저렴하거나 무료인 모델, 그리고 매일 지루하고 반복적인 업무를 수행한다는 점입니다.

아침 브리핑, 이메일 분류 (Email triage), 경쟁사 가격 확인, 데일리 스탠드업 요약 등 말이죠.

만약 커스텀 메모리 파이프라인 (Custom memory pipelines)을 갖춘 3개의 모델로 8개의 기술을 실행하려 한다면, 그 어떤 무료 에이전트 설정도 살아남지 못할 것입니다. 그것이 바로 3주 차에 번아웃(Burn out)을 겪고 포기하게 되는 방식입니다.

이 목록에서 제공업체를 하나 선택하세요. 에이전트에게 단 하나의 작업만 부여하세요. 한 달 동안 스스로의 가치를 증명하게 하세요. 그다음 확장하십시오.

AI 에이전트 비용을 월 0달러로 만드는 무료 LLM 조합

요약

핵심 포인트

1. Google Gemini Flash: 작업의 핵심 (the workhorse)

2. Groq: 속도의 괴물

3. OpenRouter: 무료 모델 뷔페

4. DeepSeek: 무료는 아니지만, 사실상 무료

치트 코드: 모델 라우팅 (Model Routing)

플랫폼 관점 (설정 불필요)

빠른 비교 표

90일 후 실제로 작동하는 것

댓글