
AI API 청구서, 어디서부터 불어날까? 개인 개발자를 위한 모델 선정
요약
개인 개발자가 AI 서비스를 구축할 때 직면하는 API 비용 폭증 문제를 방지하기 위한 모델 선정 가이드를 제공합니다. 보안, 확장성, 비용, 프레임워크 친화성을 기준으로 최적의 프로바이더와 아키텍처 설계 방법을 다룹니다.
핵심 포인트
- ChatGPT Plus 구독과 API 종량제 비용은 별개임을 인지해야 함
- 태스크의 복잡도에 따라 소형 모델(mini/Flash) 활용 권장
- API 키 보안 및 사용자별 비용 차단을 위한 설계 필요
- Vercel AI SDK 및 Cloudflare Workers AI 등 도구별 활용 구분
AI API 청구서, 어디서부터 불어날까? 개인 개발자를 위한 모델 선정
ChatGPT Plus의 월정액과 **OpenAI API의 종량제 (Pay-as-you-go)**는 별개의 것입니다. 개인 개발 시 자주 발생하는 패턴은, 프로토타입 단계에서는 무료 할당량으로 돌렸는데, 서비스 공개 다음 달에 API 청구 금액이 폭등하는 경우입니다.
본 기사는 기술 스택 시리즈 제4탄 (AI API) 입니다. 모델 및 호출 계층을 보안 (키 유출) · 확장성 · 비용 · Next/CF와의 친화성 측면에서 다각도로 정리합니다. 여러 앱을 양산하는 경우에는, 동일한 Route Handler 패턴과 mini / Flash 계열 모델을 템플릿으로 고정하면 프롬프트 이외의 부분은 복사만으로 해결할 수 있습니다 (stack-velocity-01-multi-app-release).
이 기사의 예상 독자
적합한 사람
- 채팅이나 요약 기능을 개인 SaaS에 탑재하고 싶은 사람
- API 키와 종량제 비용이 불안한 사람
적합하지 않은 사람
- 자체 GPU 클러스터에서 LLM을 학습하거나 호스트하고 싶은 사람
전제 지식
- 서버와 브라우저의 구분. Route Handler 또는 API에 대한 이미지
이 기사를 통해 얻을 수 있는 것
- 주요 프로바이더의 과금 단위 (토큰 (Token) / Neuron / 레이트 리밋 (Rate Limit))
- 개인 개발의 제1후보 결정 방법 (품질 vs 단가 vs 무료 할당량)
- Vercel AI SDK와 Workers AI의 활용 구분
- API 키를 보호하고 사용자별로 비용을 차단하는 설계
- 프로바이더의 다각적 평가
목차
- 용어 보충
- Plus 20달러와 API 청구는 별개의 지갑
- 3가지 질문으로 프로바이더 압축하기
- 직접 호출하는 API: OpenAI · Anthropic · Google
- 에지 (Edge)에서 저렴하게: Cloudflare Workers AI
- 호출 계층: Vercel AI SDK와 게이트웨이
- 앱에組み込む(구현하는) 정석 아키텍처
- 대략적인 비용 산출 방법
- 다각적 평가
- 비교표와 제1후보
- 모르면 고통받는 6가지 지뢰
- 다음에 읽을 것: 총정리
- 참고 링크
용어 보충
| 용어 | 한 줄 설명 |
|---|---|
| 토큰 (Token) | 모델이 처리하는 문자 덩어리. 과금 단위가 되기 쉬움 |
| 프롬프트 (Prompt) | 모델에 보내는 지시문 (대화 이력도 포함되면 비대해짐) |
| 스트리밍 (Streaming) | 답변을 조금씩 표시하는 방식 (체감 속도가 좋음) |
| Workers AI | Cloudflare 상에서 동작하는 호스트형 모델 (Neuron 과금) |
Plus 20달러와 API 청구는 별개의 지갑
| 항목 | 용도 | 개인 개발에서의 위치 |
|---|---|---|
| 채팅 계열 구독 (Claude Pro 등) | 브라우저에서 대화 | 개발자의 조사 및 초안 작성용. 앱의 실제 운영 비용에는 포함되지 않음 |
| AI API | 당신의 앱이 프로그램으로부터 호출 | 사용자가 늘어남에 따라 비례하여 증가 |
| 로컬 LLM (Ollama 등) | 자신의 PC / 자체 GPU | 전기세 및 장비 비용은 별도. API 청구는 0 |
앱에 AI를 탑재한다면, API 종량제를 전제로 설계해야 합니다. 대부분의 프로바이더는 월정액 고정 비용 없이, 성공한 이용분만큼만 청구합니다 (OpenAI: Pricing, Anthropic API 요금은 Pricing의 Platform 표 참조).
3가지 질문으로 프로바이더 압축하기
질문 1: 무엇을 시킬 것인가
| 태스크 | 적합한 선택 |
|---|---|
| 요약 · 분류 · 단문 생성 | 소형 모델 (GPT-4o mini, Claude Haiku, Gemini Flash-Lite) |
| 코딩 · 에이전트 (Agent) | 중형 ~ 대형 (Sonnet, GPT-4o 계열, Gemini Flash) |
| 장문 · 100만 토큰급 컨텍스트 | Gemini (긴 컨텍스트 모델 보유, Gemini Pricing) |
| 임베딩 (Embedding) · 검색 RAG | 전용 Embedding API (OpenAI / Workers AI 등) |
질문 2: 어디서 실행할 것인가
Vercel / Node 서버 → 각 사의 HTTP API를 그대로 사용
Cloudflare Workers로 집중하고 싶다면 → Workers AI (호스트 모델) 또는 Hono를 통해 외부 API 호출
모델을 빈번하게 교체하고 싶다면 → Vercel AI SDK 또는 OpenRouter 등
질문 3: 무료로 어디까지 검증할 것인가
Google AI Studio / Gemini API Free… 특정 모델에 대해 입출력 토큰 무료 (Rate Limit(속도 제한) 있음, Pricing 확인 필요) -
Workers AI… 하루 10,000 Neurons 무료 (Workers AI Pricing) -
OpenAI / Anthropic… 신규 크레딧은 캠페인에 따라 다름. 실제 서비스(Production) 시에는 반드시 예산 상한을 설정할 것
직접 호출 API: OpenAI · Anthropic · Google
수치는 USD / 100만 토큰 (1M tokens) 기준이 일반적입니다. 집필 시점의 대표적인 예시이며 — 공개 전 반드시 공식 Pricing 페이지를 재확인하십시오.
OpenAI API
GPT-4o mini 모델 페이지 기준 (Standard):
| 구분 | Input | Output |
|---|---|---|
| gpt-4o-mini | $0.15 / 1M | $0.60 / 1M |
| Batch API | $0.075 / 1M | $0.30 / 1M |
GPT-4o는 더 고가입니다 (예: Input $2.50 / 1M, Output $10 / 1M). 신규 모델 (GPT-5 계열 등)은 Pricing에서 확인하십시오.
적합한 사용자: 정보량이 많고, Next.js + Vercel AI SDK 사례가 풍부한 환경을 원하는 경우.
Anthropic API
Models overview / Pricing 기준 (대표 예시):
| 모델 | Input | Output |
|---|---|---|
| Claude Haiku 4.5 | $1 / 1M | $5 / 1M |
| Claude Sonnet 4.6 | $3 / 1M | $15 / 1M |
| Claude Opus 4.8 | $5 / 1M | $25 / 1M |
Prompt caching · Batch를 통해 최대 50~90% 절감할 여지가 있습니다 (공식 Pricing 참조).
적합한 사용자: 장문 코딩 · 문서 이해에서 품질을 중시하는 경우.
Google Gemini API
Gemini API Pricing (공식) 기준:
Free 티어 (요점)
- 일부 모델에 제한적 액세스
- 대상 모델은 입출력 토큰 무료 (Rate Limit 적용)
- Free 티어에서는 콘텐츠가 제품 개선에 사용될 수 있음 (Paid 티어는 해당 없음)
Paid 티어 예시 (Gemini 3.1 Flash-Lite / Standard)
| 구분 | Free | Paid |
|---|---|---|
| Input | 무료 | $0.25 / 1M |
| Output | 무료 | $1.50 / 1M |
모델마다 표가 나누어져 있으므로, 사용하는 모델명으로 Pricing 페이지 내에서 검색하십시오. RPM/RPD는 Rate limits에서 확인하십시오.
적합한 사용자: 프로토타입 비용을 0원에 가깝게 유지하고 싶은 경우, 긴 컨텍스트(Long Context), Google 연동이 필요한 경우.
엣지(Edge)에서 저렴하게: Cloudflare Workers AI
Workers AI Pricing (공식):
| 항목 | 내용 |
|---|---|
| 무료 범위 | 하루 10,000 Neurons (00:00 UTC 리셋) |
| 초과 시 | Workers Paid 사용 시 $0.011 / 1,000 Neurons |
| 과금 단위 | 모델마다 Neuron으로 환산 (Llama 3.2 1B 등은 별도 표 존재) |
호스트 모델 (Cloudflare 상의 Open Weights 모델)에 Neuron 할당량이 적용됩니다. 프록시를 통해 OpenAI/Anthropic을 호출하는 경우에는 각 사의 API 요금이 별도로 발생하며, Neuron 무료 범위 대상에서 제외된다는 점에 주의하십시오 (커뮤니티 기사에서도 언급됨. 구현 시에는 Dashboard의 이용 내역을 확인하십시오).
적합한 사람: 인프라를 Cloudflare 하나로 통합(프레임워크 편의 Hono + Workers 구성), 추론을 **오픈 모델 (Open Model)**로 충분히 해결할 수 있는 경우.
호출 계층: Vercel AI SDK와 게이트웨이
Vercel AI SDK
AI SDK는 OpenAI / Anthropic / Google 등을 공통 API (generateText / streamText)로 호출하는 계층입니다.
import { openai } from '@ai-sdk/openai'
import { generateText } from 'ai'
const { text } = await generateText({
...
- Next.js App Router과 궁합이 좋음
- 모델 교체가 한 줄로 끝남
- 비밀키는 서버 측에서만 관리 (Route Handler / Server Action)
OpenRouter 등 (선택 사항)
여러 모델을 하나의 API 키로 테스트하는 용도. 개인 개발의 초기 탐색 단계에 적합함. 운영 환경(Production)에서는 각 사와 직접 계약하는 것이 청구 및 약관 측면에서 더 명확한 경우가 많음.
앱에 통합하는 정석 아키텍처
필수 규칙
- API 키는 서버에서만 사용 (
OPENAI_API_KEY등을NEXT_PUBLIC_으로 설정하지 말 것) - 인증된 사용자만 LLM을 호출할 수 있음 (인증 편의
userId) - 속도 제한 (Rate Limiting) (사용자 / IP / 플랜별)
- 입력 토큰 상한 (Input Token Limit) (프롬프트 + 이력 트리밍)
- 과금 플랜이 있다면 Stripe와 크레딧 잔액을 연동 (결제 편)
스트리밍 (Streaming)
채팅 UI는 streamText를 통한 SSE(Server-Sent Events)를 사용. Workers에서는 타임아웃 (Timeout) (CPU 시간)에 주의. 긴 생성 작업은 큐(Queue) + 폴링(Polling) 방식도 검토.
RAG (검색 증강 생성)
- 임베딩 (Embedding): 저렴한 Embedding 모델 사용
- 벡터 DB: Supabase pgvector 등 (DB 편)
- 검색 결과만 프롬프트에 넣고, 전체 텍스트를 매번 보내지 말 것
대략적인 비용 산출 방법
- 1회 요청당 토큰을 측정 (SDK의
usage필드 활용) - 월간 요청 수 × 단가로 개략적인 비용 계산
예시 (gpt-4o-mini 기준, 가정: 1회당 input 2,000 + output 500 tokens, 월 1,000회):
- Input: 2M × $0.15 = $0.30
- Output: 0.5M × $0.60 = $0.30
- 합계 약 $0.60/월 (실제로는 이력 및 도구 호출(Tool Calling)에 따라 증가)
출력 토큰은 단가가 높으므로, 장문 생성을 제한하는 것이 효과적임.
각 사의 Dashboard에서 **이용 한도 (Hard Limit / Budget)**를 반드시 설정하십시오.
다각적 평가
비교 대상: OpenAI API / Anthropic API / Gemini API / Workers AI / Vercel AI SDK (추상화 계층)
| 후보 | 보안성 | 확장성 | 유지보수성 | AI 친화성 | 학습 비용 | 성능 | 비용 (개인) |
|---|---|---|---|---|---|---|---|
| OpenAI API | ○ | ◎ | ○ | ◎ | ○ | ○ | ○ |
| Anthropic API | ○ | ○ | ○ | ◎ | ○ | ○ | △ |
| Gemini API | ○ | ○ | ○ | ○ | ◎ | ○ | ◎ |
| Workers AI | ○ | △ | ○ | ○ | ○ | ◎ | ◎ |
| Vercel AI SDK | ○ | ◎ | ◎ | ◎ | ○ | ○ | ○ |
기호: AI 친화성은 Next.js, 스트리밍 UI, 도구 호출(Tool Calling)과의 궁합을 의미함. SDK는 프로바이더 교체를 통해 확장성 ◎.
작성일: 2026년 5월.
평가 해석
- OpenAI: 정보량 및 사례 최다. AI SDK와의 조합 ◎. 단가는 mini 모델로 억제
- Anthropic: 코딩 품질에서 강점. 비용 △ (고기능 모델은 사용량이 많음)
- Gemini: Free 티어(Free 枠)로 비용 ◎. 상업적 이용 및 데이터 약관은 반드시 확인
- Workers AI: Cloudflare 인프라와 일체화. 모델 선택지 △. Neuron 한도 내라면 성능·비용 ◎
- Vercel AI SDK: 모델 비의존적. 보안은 결국 서버 구현에 따라 결정
비교표 및 제1후보
| 선택지 | 월간 고정 비용 | 무료 체험 | 품질·에코시스템 | 개인 개발자를 위한 한마디 |
|---|---|---|---|---|
| OpenAI API | 없음 | 확인 필요 | ◎ | 정보량 최대·SDK 풍부 |
| Anthropic API | 없음 | 확인 필요 | ◎ 코딩 | 품질 중시 유료 기능 |
| Gemini API | 없음 | Free 티어 있음 | ○ | 프로토타입 0원 지향 |
| Workers AI | 없음* | 10k Neuron/일 | ○ 오픈 모델 | CF 구성과 궁합 ◎ |
| Vercel AI SDK | 없음 | 프로바이더에 따라 다름 | 추상화 계층 | 모델 교체용 |
- Workers Paid 플랜 자체에 최소 요금이 있을 수 있음 (Workers Pricing)
본 기사의 결론 (미리보기)
| 상황 | 제1후보 |
|---|---|
| Next.js SaaS · 일반적인 채팅 | OpenAI gpt-4o-mini 또는 Gemini Flash-Lite |
| 코딩 지원 · 품질 우선 | Claude Sonnet / Haiku |
| Cloudflare 월 0원 인프라 | Workers AI + 부족할 경우 외부 API |
| 모델 시행착오 단계 | Vercel AI SDK + Gemini Free / mini 계열 |
여러 앱을 연속해서 출시할 때
| 항목 | 양산 모드 권장 사항 |
|---|---|
| 모델 | 일반 기능은 gpt-4o-mini 또는 Gemini Flash-Lite를 표준으로 사용 (고급 모델은 예외적인 앱만) |
| 호출 | 서버 1곳 (Server Action / Route Handler / Hono). 템플릿에 Rate Limit(속도 제한) 프레임워크 포함 |
| 키 (Key) | 1개의 키로도 가능. 유출 범위를 좁히고 싶다면 앱별 키 사용 (대시보드는 동일) |
| CF 구성 | Workers AI를 사용한다면 Neuron 측정 절차를 템플릿 README에 작성 |
| 비(非) AI 앱 | LLM 루트를 넣지 않음. 템플릿은 --no-ai 브랜치로 관리해도 좋음 |
모르면 뼈아픈, 6가지 지뢰
- 프론트에 API 키 노출 → 즉시 유출되어 제3자가 사용함
- 인증 없는 공개 엔드포인트 → 봇(Bot)의 공격을 받아 파산함
- 대화 이력을 무한정 전송 → 입력 토큰(Input Token)이 선형적으로 증가함
- 고급 모델을 모든 사용자에게 개방 → 매출 총이익이 사라짐 (결제 플랜 설계와 병행 필요)
- 로그에 프롬프트 전문 기록 → PII(개인 식별 정보) 유출 및 약관 위반
- Free 티어 약관 무시 → 상업적 이용 및 데이터 활용 조건 확인 누락
다음에 읽을 내용: 총정리
총정리 기사에서 프레임워크 × 인증 × 결제 × AI × 인프라를 하나의 선정 플로우로 정리해 두었습니다.
Cloudflare 상에서 Workers AI를 사용하는 경우 cf-deep-dive-06-workers-ai (Neuron·Binding 심층 분석)를 참조해 주세요.
참고 링크
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기