LLM 요청을 가장 저렴한 제공업체로 라우팅하는 API 프록시를 구축했습니다 — 제가 배운 점들

저는 몇 달 전부터 LLM API를 본격적으로 사용하기 시작했습니다. 작은 자동화 작업을 위해 GPT-4o를 호출할 때마다 인보이스(invoice)가 $5, $10, $20씩 늘어나는 것을 보았습니다... 문득 돈이 아깝다는 생각이 들었습니다. 베트남에는 "돈은 내 창자의 일부와 같다(Đồng tiền đi liền khúc ruột)"라는 말이 있는데, 이 API 호출들은 정말로 제 창자를 갉아먹고 있었습니다.

그래서 무언가를 만들었습니다.

아무도 말하지 않는 문제

2026년 6월 기준 LLM API의 현실은 다음과 같습니다:

제공업체 (Provider)	모델 (Model)	입력 (1M 토큰당)	출력 (1M 토큰당)
OpenAI	GPT-4o	$2.50	$10.00
...

DeepSeek은 GPT-4o보다 17배 더 저렴합니다. Gemini Flash는 입력 비용이 훨씬 더 저렴합니다. 그리고 아무도 대놓고 말하지 않는 사실이 있습니다. 코드 생성(code generation), 요약(summarization), 번역(translation), 데이터 추출(data extraction) 등 여러분이 사용하는 사례의 80%에 대해서는 출력 품질이 동일하다는 점입니다.

여러분은 품질이 아니라 브랜드 이름에 프리미엄을 지불하고 있는 것입니다.

해결책: 스마트 프록시 (Python 337줄)

제 프록시는 매우 단순합니다. 이 프록시는 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint) (/v1/chat/completions)를 노출합니다. OpenAI API와 통신하는 모든 앱은 제 프록시와 통신할 수 있습니다. 코드 변경도, SDK 교체도 필요 없습니다.

백그라운드에서는 온라인 상태인 가장 저렴한 제공업체로 요청을 라우팅합니다:

# proxy_server.py — 라우팅 로직 (단순화됨)
PROVIDERS = [
    Provider("deepseek", "$0.14/1M", True),    # 가장 저렴한 곳부터 시도
...

이것이 작동하는 세 가지 핵심 요소는 다음과 같습니다:

자동 장애 조치 (Automatic failover) — 만약 DeepSeek이 다운되면 (중국 업무 시간 중에 발생함), Gemini로 넘어가고, 그다음은 OpenRouter, 마지막으로 OpenAI로 넘어갑니다. 여러분의 앱은 503 에러를 절대 보지 못합니다.
통합 빌링 (Unified billing) — 모든 사용량은 SQLite에서 추적됩니다. 하나의 대시보드에서 모든 제공업체에 대해 일별, 모델별로 정확히 얼마를 썼는지 보여줍니다.
테넌트 격리 (Tenant isolation) — 각각 고유한 사용량 제한을 가진 여러 개의 API 키를 사용할 수 있습니다. 개발 팀에는 월 100만 토큰을 할당하고, 운영 파이프라인에는 2,500만 토큰을 할당합니다. 둘 다 동일한 엔드포인트를 사용합니다.

경제성 (여기서부터 흥미로워집니다)

최근 arXiv 논문 (2603.22404)은 가격과 품질에 따라 LLM 제공업체 간을 동적으로 라우팅하는 **연산 모델 차익 거래 (computational model arbitrage)**가 지속적으로 40%의 수익 마진을 창출한다는 것을 증명했습니다. 이는 추측이 아닙니다. 출판된 연구 결과입니다.

현재 저의 가격 책정($0.005/1K 토큰)을 기준으로 한 리셀러(reseller) 계산법은 다음과 같습니다:

지표	값
DeepSeek 비용	1M 토큰당 $0.14
...

2,000만 토큰은 많아 보이지만, 모든 PR(Pull Request)에서 코드 리뷰를 실행하는 단일 CI/CD 파이프라인이 일주일에 1,000만 토큰을 소모한다는 점을 깨닫기 전까지는 그렇습니다. 중간 규모의 개발 팀 하나가 그 정도를 씁니다. 고객 한 명으로부터 월 $50의 수익이 발생하는 셈입니다.

시장은 실재합니다. LLM API 게이트웨이 (LLM API gateway) 분야는 전년 대비(YoY) 38% 성장하고 있습니다. Portkey는 700만 달러를 투자받았습니다. LiteLLM (오픈 소스)은 15,000개 이상의 GitHub 스타를 보유하고 있습니다. 수요는 존재합니다. 다만, **그저 더 저렴한 API 호출을 원하는 인디 개발자 (indie devs)**를 타겟팅하는 곳이 없다는 것이 격차이며, 그것이 저의 틈새시장(niche)입니다.

내가 만든 것 vs 시장에 있는 것

기능	LiteLLM (OSS)	Portkey (Enterprise)	나의 프록시
제공업체 라우팅 (Provider routing)	✅	✅	✅
...

이 프록시는 LiteLLM의 기능 세트와 경쟁하려는 것이 아닙니다. **단순함 (simplicity)**으로 경쟁합니다. 바로 적용 가능(Drop-in)하고, 파일 하나로 끝나며, 의존성(dependencies)이 전혀 없습니다. 만약 당신이 LLM을 호출하는 3~4개의 작은 프로젝트를 운영하는 1인 개발자라면, Prometheus 대시보드가 있는 Kubernetes 클러스터는 필요 없습니다. 당신에게 필요한 것은 더 저렴한 API 호출입니다. 그게 전부입니다.

어떻게 만들었나 (스택)

# proxy_server.py — 핵심 코드 (484줄)
# 표준 라이브러리(stdlib)만 사용: http.server, sqlite3, json, urllib, hashlib
# pip install 필요 없음. venv 필요 없음. 그냥 python3 proxy_server.py 실행

HTTP 서버 (HTTP server): Python 표준 라이브러리(stdlib) http.server 사용 (Flask나 FastAPI 미사용 — 의존성 제로)
제공업체 어댑터 (Provider adapters): OpenAI 호환 (DeepSeek, OpenRouter, OpenAI) + 네이티브 Gemini REST
결제 (Billing): 4단계 요금제(Free → $99/mo)를 갖춘 SQLite, 테넌트별 사용량 추적, 인보이스 생성
인증 (Auth): SHA-256 해시 처리된 API 키, 관리를 위한 관리자 키
배포 (Deployment): Dockerfile 포함. Railway, Fly.io 또는 모든 VPS에 한 번의 명령으로 배포 가능

전체 작업은 몇 차례의 빌드 및 배포(Build & Ship) 세션을 거쳐 약 4시간이 소요되었습니다. proxy_server.py는 원래 337줄이었습니다. Gemini 지원, 결제 통합, 그리고 /providers 진단 엔드포인트를 추가한 후 현재는 484줄이 되었습니다.

아직 하지 못한 단 한 가지

프록시는 현재 공개 URL에 배포되어 실행 중입니다. /health는 `{"status": "healthy"}

이 프록시는 제 포트폴리오에서 가장 높은 수익 잠재력을 가진 항목입니다. $29가 큰 돈이라서가 아닙니다 — 그렇지 않습니다. 하지만 구독형 SaaS (recurring SaaS) (결제 엔진은 월 $9~$99 플랜을 지원합니다)는 매일매일 일회성 Gumroad 판매보다 더 나은 성과를 보여주기 때문입니다.

🛠️ 코드를 변경하지 않고 더 저렴한 LLM API 호출을 원하시나요? 저의 AI API Proxy는 귀하의 요청을 가장 저렴한 제공업체로 자동으로 라우팅합니다 — 100만 토큰당 $0.14인 DeepSeek (GPT-4o보다 17배 저렴함). OpenAI 호환 엔드포인트(endpoint), 단 하나의 파일, 의존성 제로. $29 일회성 결제.*

🤖 또한 다음 제품도 확인해 보세요: Telegram Bot Starter Kit — 오후 한나절 만에 수익 창출이 가능한 Telegram 봇을 출시하세요. $25.*

이번 달 귀하의 LLM API 청구서는 어떤 모습인가요? 프로젝트 중간에 제공업체를 교체해 본 적이 있나요? 댓글을 남겨주세요 — 다른 1인 개발자들은 이 문제를 어떻게 다루고 있는지 진심으로 궁금합니다.

LLM 요청을 가장 저렴한 제공업체로 라우팅하는 API 프록시를 구축했습니다 — 제가 배운 점들

요약

핵심 포인트

LLM 요청을 가장 저렴한 제공업체로 라우팅하는 API 프록시를 구축했습니다 — 제가 배운 점들

아무도 말하지 않는 문제

해결책: 스마트 프록시 (Python 337줄)

경제성 (여기서부터 흥미로워집니다)

내가 만든 것 vs 시장에 있는 것

어떻게 만들었나 (스택)

아직 하지 못한 단 한 가지

댓글