AI API 청구서, 어디서부터 불어날까? 개인 개발자를 위한 모델 선정

ChatGPT Plus의 월정액과 **OpenAI API의 종량제 (Pay-as-you-go)**는 별개의 것입니다. 개인 개발 시 자주 발생하는 패턴은, 프로토타입 단계에서는 무료 할당량으로 돌렸는데, 서비스 공개 다음 달에 API 청구 금액이 폭등하는 경우입니다.

본 기사는 기술 스택 시리즈 제4탄 (AI API) 입니다. 모델 및 호출 계층을 보안 (키 유출) · 확장성 · 비용 · Next/CF와의 친화성 측면에서 다각도로 정리합니다. 여러 앱을 양산하는 경우에는, 동일한 Route Handler 패턴과 mini / Flash 계열 모델을 템플릿으로 고정하면 프롬프트 이외의 부분은 복사만으로 해결할 수 있습니다 (stack-velocity-01-multi-app-release).

이 기사의 예상 독자

적합한 사람

채팅이나 요약 기능을 개인 SaaS에 탑재하고 싶은 사람
API 키와 종량제 비용이 불안한 사람

적합하지 않은 사람

자체 GPU 클러스터에서 LLM을 학습하거나 호스트하고 싶은 사람

전제 지식

서버와 브라우저의 구분. Route Handler 또는 API에 대한 이미지

이 기사를 통해 얻을 수 있는 것

주요 프로바이더의 과금 단위 (토큰 (Token) / Neuron / 레이트 리밋 (Rate Limit))
개인 개발의 제1후보 결정 방법 (품질 vs 단가 vs 무료 할당량)
Vercel AI SDK와 Workers AI의 활용 구분
API 키를 보호하고 사용자별로 비용을 차단하는 설계
프로바이더의 다각적 평가

용어 보충
Plus 20달러와 API 청구는 별개의 지갑
3가지 질문으로 프로바이더 압축하기
직접 호출하는 API: OpenAI · Anthropic · Google
에지 (Edge)에서 저렴하게: Cloudflare Workers AI
호출 계층: Vercel AI SDK와 게이트웨이
앱에組み込む(구현하는) 정석 아키텍처
대략적인 비용 산출 방법
다각적 평가
비교표와 제1후보
모르면 고통받는 6가지 지뢰
다음에 읽을 것: 총정리
참고 링크

용어 보충

용어	한 줄 설명
토큰 (Token)	모델이 처리하는 문자 덩어리. 과금 단위가 되기 쉬움
프롬프트 (Prompt)	모델에 보내는 지시문 (대화 이력도 포함되면 비대해짐)
스트리밍 (Streaming)	답변을 조금씩 표시하는 방식 (체감 속도가 좋음)
Workers AI	Cloudflare 상에서 동작하는 호스트형 모델 (Neuron 과금)

Plus 20달러와 API 청구는 별개의 지갑

항목	용도	개인 개발에서의 위치
채팅 계열 구독 (Claude Pro 등)	브라우저에서 대화	개발자의 조사 및 초안 작성용. 앱의 실제 운영 비용에는 포함되지 않음
AI API	당신의 앱이 프로그램으로부터 호출	사용자가 늘어남에 따라 비례하여 증가
로컬 LLM (Ollama 등)	자신의 PC / 자체 GPU	전기세 및 장비 비용은 별도. API 청구는 0

앱에 AI를 탑재한다면, API 종량제를 전제로 설계해야 합니다. 대부분의 프로바이더는 월정액 고정 비용 없이, 성공한 이용분만큼만 청구합니다 (OpenAI: Pricing, Anthropic API 요금은 Pricing의 Platform 표 참조).

3가지 질문으로 프로바이더 압축하기

질문 1: 무엇을 시킬 것인가

태스크	적합한 선택
요약 · 분류 · 단문 생성	소형 모델 (GPT-4o mini, Claude Haiku, Gemini Flash-Lite)
코딩 · 에이전트 (Agent)	중형 ~ 대형 (Sonnet, GPT-4o 계열, Gemini Flash)
장문 · 100만 토큰급 컨텍스트	Gemini (긴 컨텍스트 모델 보유, Gemini Pricing)
임베딩 (Embedding) · 검색 RAG	전용 Embedding API (OpenAI / Workers AI 등)

질문 2: 어디서 실행할 것인가

Vercel / Node 서버 → 각 사의 HTTP API를 그대로 사용
Cloudflare Workers로 집중하고 싶다면 → Workers AI (호스트 모델) 또는 Hono를 통해 외부 API 호출
모델을 빈번하게 교체하고 싶다면 → Vercel AI SDK 또는 OpenRouter 등

질문 3: 무료로 어디까지 검증할 것인가

Google AI Studio / Gemini API Free… 특정 모델에 대해 입출력 토큰 무료 (Rate Limit(속도 제한) 있음, Pricing 확인 필요) -
Workers AI… 하루 10,000 Neurons 무료 (Workers AI Pricing) -
OpenAI / Anthropic… 신규 크레딧은 캠페인에 따라 다름. 실제 서비스(Production) 시에는 반드시 예산 상한을 설정할 것

직접 호출 API: OpenAI · Anthropic · Google

수치는 USD / 100만 토큰 (1M tokens) 기준이 일반적입니다. 집필 시점의 대표적인 예시이며 — 공개 전 반드시 공식 Pricing 페이지를 재확인하십시오.

OpenAI API

GPT-4o mini 모델 페이지 기준 (Standard):

구분	Input	Output
gpt-4o-mini	$0.15 / 1M	$0.60 / 1M
Batch API	$0.075 / 1M	$0.30 / 1M

GPT-4o는 더 고가입니다 (예: Input $2.50 / 1M, Output $10 / 1M). 신규 모델 (GPT-5 계열 등)은 Pricing에서 확인하십시오.

적합한 사용자: 정보량이 많고, Next.js + Vercel AI SDK 사례가 풍부한 환경을 원하는 경우.

Anthropic API

Models overview / Pricing 기준 (대표 예시):

모델	Input	Output
Claude Haiku 4.5	$1 / 1M	$5 / 1M
Claude Sonnet 4.6	$3 / 1M	$15 / 1M
Claude Opus 4.8	$5 / 1M	$25 / 1M

Prompt caching · Batch를 통해 최대 50~90% 절감할 여지가 있습니다 (공식 Pricing 참조).

적합한 사용자: 장문 코딩 · 문서 이해에서 품질을 중시하는 경우.

Google Gemini API

Gemini API Pricing (공식) 기준:

Free 티어 (요점)

일부 모델에 제한적 액세스
대상 모델은 입출력 토큰 무료 (Rate Limit 적용)
Free 티어에서는 콘텐츠가 제품 개선에 사용될 수 있음 (Paid 티어는 해당 없음)

Paid 티어 예시 (Gemini 3.1 Flash-Lite / Standard)

구분	Free	Paid
Input	무료	$0.25 / 1M
Output	무료	$1.50 / 1M

모델마다 표가 나누어져 있으므로, 사용하는 모델명으로 Pricing 페이지 내에서 검색하십시오. RPM/RPD는 Rate limits에서 확인하십시오.

적합한 사용자: 프로토타입 비용을 0원에 가깝게 유지하고 싶은 경우, 긴 컨텍스트(Long Context), Google 연동이 필요한 경우.

엣지(Edge)에서 저렴하게: Cloudflare Workers AI

Workers AI Pricing (공식):

항목	내용
무료 범위	하루 10,000 Neurons (00:00 UTC 리셋)
초과 시	Workers Paid 사용 시 $0.011 / 1,000 Neurons
과금 단위	모델마다 Neuron으로 환산 (Llama 3.2 1B 등은 별도 표 존재)

호스트 모델 (Cloudflare 상의 Open Weights 모델)에 Neuron 할당량이 적용됩니다. 프록시를 통해 OpenAI/Anthropic을 호출하는 경우에는 각 사의 API 요금이 별도로 발생하며, Neuron 무료 범위 대상에서 제외된다는 점에 주의하십시오 (커뮤니티 기사에서도 언급됨. 구현 시에는 Dashboard의 이용 내역을 확인하십시오).

적합한 사람: 인프라를 Cloudflare 하나로 통합(프레임워크 편의 Hono + Workers 구성), 추론을 **오픈 모델 (Open Model)**로 충분히 해결할 수 있는 경우.

호출 계층: Vercel AI SDK와 게이트웨이

Vercel AI SDK

AI SDK는 OpenAI / Anthropic / Google 등을 공통 API (generateText / streamText)로 호출하는 계층입니다.

import { openai } from '@ai-sdk/openai'
import { generateText } from 'ai'
const { text } = await generateText({
...

Next.js App Router과 궁합이 좋음
모델 교체가 한 줄로 끝남
비밀키는 서버 측에서만 관리 (Route Handler / Server Action)

OpenRouter 등 (선택 사항)

여러 모델을 하나의 API 키로 테스트하는 용도. 개인 개발의 초기 탐색 단계에 적합함. 운영 환경(Production)에서는 각 사와 직접 계약하는 것이 청구 및 약관 측면에서 더 명확한 경우가 많음.

앱에 통합하는 정석 아키텍처

필수 규칙

API 키는 서버에서만 사용 (OPENAI_API_KEY 등을 NEXT_PUBLIC_으로 설정하지 말 것)
인증된 사용자만 LLM을 호출할 수 있음 (인증 편의 userId)
속도 제한 (Rate Limiting) (사용자 / IP / 플랜별)
입력 토큰 상한 (Input Token Limit) (프롬프트 + 이력 트리밍)
과금 플랜이 있다면 Stripe와 크레딧 잔액을 연동 (결제 편)

스트리밍 (Streaming)

채팅 UI는 streamText를 통한 SSE(Server-Sent Events)를 사용. Workers에서는 타임아웃 (Timeout) (CPU 시간)에 주의. 긴 생성 작업은 큐(Queue) + 폴링(Polling) 방식도 검토.

RAG (검색 증강 생성)

임베딩 (Embedding): 저렴한 Embedding 모델 사용
벡터 DB: Supabase pgvector 등 (DB 편)
검색 결과만 프롬프트에 넣고, 전체 텍스트를 매번 보내지 말 것

대략적인 비용 산출 방법

1회 요청당 토큰을 측정 (SDK의 usage 필드 활용)
월간 요청 수 × 단가로 개략적인 비용 계산

예시 (gpt-4o-mini 기준, 가정: 1회당 input 2,000 + output 500 tokens, 월 1,000회):

Input: 2M × $0.15 = $0.30
Output: 0.5M × $0.60 = $0.30
합계 약 $0.60/월 (실제로는 이력 및 도구 호출(Tool Calling)에 따라 증가)

출력 토큰은 단가가 높으므로, 장문 생성을 제한하는 것이 효과적임.

각 사의 Dashboard에서 **이용 한도 (Hard Limit / Budget)**를 반드시 설정하십시오.

다각적 평가

비교 대상: OpenAI API / Anthropic API / Gemini API / Workers AI / Vercel AI SDK (추상화 계층)

후보	보안성	확장성	유지보수성	AI 친화성	학습 비용	성능	비용 (개인)
OpenAI API	○	◎	○	◎	○	○	○
Anthropic API	○	○	○	◎	○	○	△
Gemini API	○	○	○	○	◎	○	◎
Workers AI	○	△	○	○	○	◎	◎
Vercel AI SDK	○	◎	◎	◎	○	○	○

기호: AI 친화성은 Next.js, 스트리밍 UI, 도구 호출(Tool Calling)과의 궁합을 의미함. SDK는 프로바이더 교체를 통해 확장성 ◎.
작성일: 2026년 5월.

평가 해석

OpenAI: 정보량 및 사례 최다. AI SDK와의 조합 ◎. 단가는 mini 모델로 억제
Anthropic: 코딩 품질에서 강점. 비용 △ (고기능 모델은 사용량이 많음)
Gemini: Free 티어(Free 枠)로 비용 ◎. 상업적 이용 및 데이터 약관은 반드시 확인
Workers AI: Cloudflare 인프라와 일체화. 모델 선택지 △. Neuron 한도 내라면 성능·비용 ◎
Vercel AI SDK: 모델 비의존적. 보안은 결국 서버 구현에 따라 결정

비교표 및 제1후보

선택지	월간 고정 비용	무료 체험	품질·에코시스템	개인 개발자를 위한 한마디
OpenAI API	없음	확인 필요	◎	정보량 최대·SDK 풍부
Anthropic API	없음	확인 필요	◎ 코딩	품질 중시 유료 기능
Gemini API	없음	Free 티어 있음	○	프로토타입 0원 지향
Workers AI	없음*	10k Neuron/일	○ 오픈 모델	CF 구성과 궁합 ◎
Vercel AI SDK	없음	프로바이더에 따라 다름	추상화 계층	모델 교체용

Workers Paid 플랜 자체에 최소 요금이 있을 수 있음 (Workers Pricing)

본 기사의 결론 (미리보기)

상황	제1후보
Next.js SaaS · 일반적인 채팅	OpenAI gpt-4o-mini 또는 Gemini Flash-Lite
코딩 지원 · 품질 우선	Claude Sonnet / Haiku
Cloudflare 월 0원 인프라	Workers AI + 부족할 경우 외부 API
모델 시행착오 단계	Vercel AI SDK + Gemini Free / mini 계열

여러 앱을 연속해서 출시할 때

항목	양산 모드 권장 사항
모델	일반 기능은 gpt-4o-mini 또는 Gemini Flash-Lite를 표준으로 사용 (고급 모델은 예외적인 앱만)
호출	서버 1곳 (Server Action / Route Handler / Hono). 템플릿에 Rate Limit(속도 제한) 프레임워크 포함
키 (Key)	1개의 키로도 가능. 유출 범위를 좁히고 싶다면 앱별 키 사용 (대시보드는 동일)
CF 구성	Workers AI를 사용한다면 Neuron 측정 절차를 템플릿 README에 작성
비(非) AI 앱	LLM 루트를 넣지 않음. 템플릿은 `--no-ai` 브랜치로 관리해도 좋음

모르면 뼈아픈, 6가지 지뢰

프론트에 API 키 노출 → 즉시 유출되어 제3자가 사용함
인증 없는 공개 엔드포인트 → 봇(Bot)의 공격을 받아 파산함
대화 이력을 무한정 전송 → 입력 토큰(Input Token)이 선형적으로 증가함
고급 모델을 모든 사용자에게 개방 → 매출 총이익이 사라짐 (결제 플랜 설계와 병행 필요)
로그에 프롬프트 전문 기록 → PII(개인 식별 정보) 유출 및 약관 위반
Free 티어 약관 무시 → 상업적 이용 및 데이터 활용 조건 확인 누락

다음에 읽을 내용: 총정리

총정리 기사에서 프레임워크 × 인증 × 결제 × AI × 인프라를 하나의 선정 플로우로 정리해 두었습니다.

Cloudflare 상에서 Workers AI를 사용하는 경우 cf-deep-dive-06-workers-ai (Neuron·Binding 심층 분석)를 참조해 주세요.

AI API 청구서, 어디서부터 불어날까? 개인 개발자를 위한 모델 선정

요약

핵심 포인트

AI API 청구서, 어디서부터 불어날까? 개인 개발자를 위한 모델 선정

이 기사의 예상 독자

이 기사를 통해 얻을 수 있는 것

목차

용어 보충

Plus 20달러와 API 청구는 별개의 지갑

3가지 질문으로 프로바이더 압축하기

질문 1: 무엇을 시킬 것인가

질문 2: 어디서 실행할 것인가

질문 3: 무료로 어디까지 검증할 것인가

직접 호출 API: OpenAI · Anthropic · Google

OpenAI API

Anthropic API

Google Gemini API

엣지(Edge)에서 저렴하게: Cloudflare Workers AI

호출 계층: Vercel AI SDK와 게이트웨이

Vercel AI SDK

OpenRouter 등 (선택 사항)

앱에 통합하는 정석 아키텍처

필수 규칙

스트리밍 (Streaming)

RAG (검색 증강 생성)

대략적인 비용 산출 방법

다각적 평가

평가 해석

비교표 및 제1후보

여러 앱을 연속해서 출시할 때

모르면 뼈아픈, 6가지 지뢰

다음에 읽을 내용: 총정리

참고 링크

Discussion

댓글