본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 03. 14:16

LLM 요청을 가장 저렴한 제공업체로 라우팅하는 API 프록시를 구축했습니다 — 제가 배운 점들

요약

LLM API 비용 절감을 위해 가장 저렴한 제공업체로 요청을 자동 라우팅하는 Python 기반 API 프록시 구축 사례를 소개합니다. OpenAI 호환 엔드포인트를 유지하면서 장애 조치, 통합 빌링, 테넌트 격리 기능을 통해 비용 효율성을 극대화하는 방법을 다룹니다.

핵심 포인트

  • OpenAI 호환 엔드포인트를 사용하여 기존 코드 변경 없이 프록시 적용 가능
  • DeepSeek, Gemini 등 저렴한 모델로 자동 라우팅하여 비용 대폭 절감
  • 제공업체 장애 시 다음 순위 모델로 자동 전환되는 Failover 기능 구현
  • SQLite를 활용한 통합 빌링 및 테넌트별 토큰 사용량 제한 관리

LLM 요청을 가장 저렴한 제공업체로 라우팅하는 API 프록시를 구축했습니다 — 제가 배운 점들

저는 몇 달 전부터 LLM API를 본격적으로 사용하기 시작했습니다. 작은 자동화 작업을 위해 GPT-4o를 호출할 때마다 인보이스(invoice)가 $5, $10, $20씩 늘어나는 것을 보았습니다... 문득 돈이 아깝다는 생각이 들었습니다. 베트남에는 "돈은 내 창자의 일부와 같다(Đồng tiền đi liền khúc ruột)"라는 말이 있는데, 이 API 호출들은 정말로 제 창자를 갉아먹고 있었습니다.

그래서 무언가를 만들었습니다.

아무도 말하지 않는 문제

2026년 6월 기준 LLM API의 현실은 다음과 같습니다:

제공업체 (Provider)모델 (Model)입력 (1M 토큰당)출력 (1M 토큰당)
OpenAIGPT-4o$2.50$10.00
...

DeepSeek은 GPT-4o보다 17배 더 저렴합니다. Gemini Flash는 입력 비용이 훨씬 더 저렴합니다. 그리고 아무도 대놓고 말하지 않는 사실이 있습니다. 코드 생성(code generation), 요약(summarization), 번역(translation), 데이터 추출(data extraction) 등 여러분이 사용하는 사례의 80%에 대해서는 출력 품질이 동일하다는 점입니다.

여러분은 품질이 아니라 브랜드 이름에 프리미엄을 지불하고 있는 것입니다.

해결책: 스마트 프록시 (Python 337줄)

제 프록시는 매우 단순합니다. 이 프록시는 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint) (/v1/chat/completions)를 노출합니다. OpenAI API와 통신하는 모든 앱은 제 프록시와 통신할 수 있습니다. 코드 변경도, SDK 교체도 필요 없습니다.

백그라운드에서는 온라인 상태인 가장 저렴한 제공업체로 요청을 라우팅합니다:

# proxy_server.py — 라우팅 로직 (단순화됨)
PROVIDERS = [
    Provider("deepseek", "$0.14/1M", True),    # 가장 저렴한 곳부터 시도
...

이것이 작동하는 세 가지 핵심 요소는 다음과 같습니다:

  1. 자동 장애 조치 (Automatic failover) — 만약 DeepSeek이 다운되면 (중국 업무 시간 중에 발생함), Gemini로 넘어가고, 그다음은 OpenRouter, 마지막으로 OpenAI로 넘어갑니다. 여러분의 앱은 503 에러를 절대 보지 못합니다.

  2. 통합 빌링 (Unified billing) — 모든 사용량은 SQLite에서 추적됩니다. 하나의 대시보드에서 모든 제공업체에 대해 일별, 모델별로 정확히 얼마를 썼는지 보여줍니다.

  3. 테넌트 격리 (Tenant isolation) — 각각 고유한 사용량 제한을 가진 여러 개의 API 키를 사용할 수 있습니다. 개발 팀에는 월 100만 토큰을 할당하고, 운영 파이프라인에는 2,500만 토큰을 할당합니다. 둘 다 동일한 엔드포인트를 사용합니다.

경제성 (여기서부터 흥미로워집니다)

최근 arXiv 논문 (2603.22404)은 가격과 품질에 따라 LLM 제공업체 간을 동적으로 라우팅하는 **연산 모델 차익 거래 (computational model arbitrage)**가 지속적으로 40%의 수익 마진을 창출한다는 것을 증명했습니다. 이는 추측이 아닙니다. 출판된 연구 결과입니다.

현재 저의 가격 책정($0.005/1K 토큰)을 기준으로 한 리셀러(reseller) 계산법은 다음과 같습니다:

지표
DeepSeek 비용1M 토큰당 $0.14
...

2,000만 토큰은 많아 보이지만, 모든 PR(Pull Request)에서 코드 리뷰를 실행하는 단일 CI/CD 파이프라인이 일주일에 1,000만 토큰을 소모한다는 점을 깨닫기 전까지는 그렇습니다. 중간 규모의 개발 팀 하나가 그 정도를 씁니다. 고객 한 명으로부터 월 $50의 수익이 발생하는 셈입니다.

시장은 실재합니다. LLM API 게이트웨이 (LLM API gateway) 분야는 전년 대비(YoY) 38% 성장하고 있습니다. Portkey는 700만 달러를 투자받았습니다. LiteLLM (오픈 소스)은 15,000개 이상의 GitHub 스타를 보유하고 있습니다. 수요는 존재합니다. 다만, **그저 더 저렴한 API 호출을 원하는 인디 개발자 (indie devs)**를 타겟팅하는 곳이 없다는 것이 격차이며, 그것이 저의 틈새시장(niche)입니다.

내가 만든 것 vs 시장에 있는 것

기능LiteLLM (OSS)Portkey (Enterprise)나의 프록시
제공업체 라우팅 (Provider routing)
...

이 프록시는 LiteLLM의 기능 세트와 경쟁하려는 것이 아닙니다. **단순함 (simplicity)**으로 경쟁합니다. 바로 적용 가능(Drop-in)하고, 파일 하나로 끝나며, 의존성(dependencies)이 전혀 없습니다. 만약 당신이 LLM을 호출하는 3~4개의 작은 프로젝트를 운영하는 1인 개발자라면, Prometheus 대시보드가 있는 Kubernetes 클러스터는 필요 없습니다. 당신에게 필요한 것은 더 저렴한 API 호출입니다. 그게 전부입니다.

어떻게 만들었나 (스택)

# proxy_server.py — 핵심 코드 (484줄)
# 표준 라이브러리(stdlib)만 사용: http.server, sqlite3, json, urllib, hashlib
# pip install 필요 없음. venv 필요 없음. 그냥 python3 proxy_server.py 실행
  • HTTP 서버 (HTTP server): Python 표준 라이브러리(stdlib) http.server 사용 (Flask나 FastAPI 미사용 — 의존성 제로)
  • 제공업체 어댑터 (Provider adapters): OpenAI 호환 (DeepSeek, OpenRouter, OpenAI) + 네이티브 Gemini REST
  • 결제 (Billing): 4단계 요금제(Free → $99/mo)를 갖춘 SQLite, 테넌트별 사용량 추적, 인보이스 생성
  • 인증 (Auth): SHA-256 해시 처리된 API 키, 관리를 위한 관리자 키
  • 배포 (Deployment): Dockerfile 포함. Railway, Fly.io 또는 모든 VPS에 한 번의 명령으로 배포 가능

전체 작업은 몇 차례의 빌드 및 배포(Build & Ship) 세션을 거쳐 약 4시간이 소요되었습니다. proxy_server.py는 원래 337줄이었습니다. Gemini 지원, 결제 통합, 그리고 /providers 진단 엔드포인트를 추가한 후 현재는 484줄이 되었습니다.

아직 하지 못한 단 한 가지

프록시는 현재 공개 URL에 배포되어 실행 중입니다. /health는 `{"status": "healthy"}

이 프록시는 제 포트폴리오에서 가장 높은 수익 잠재력을 가진 항목입니다. $29가 큰 돈이라서가 아닙니다 — 그렇지 않습니다. 하지만 구독형 SaaS (recurring SaaS) (결제 엔진은 월 $9~$99 플랜을 지원합니다)는 매일매일 일회성 Gumroad 판매보다 더 나은 성과를 보여주기 때문입니다.

🛠️ 코드를 변경하지 않고 더 저렴한 LLM API 호출을 원하시나요? 저의 AI API Proxy는 귀하의 요청을 가장 저렴한 제공업체로 자동으로 라우팅합니다 — 100만 토큰당 $0.14인 DeepSeek (GPT-4o보다 17배 저렴함). OpenAI 호환 엔드포인트(endpoint), 단 하나의 파일, 의존성 제로. $29 일회성 결제.*

🤖 또한 다음 제품도 확인해 보세요: Telegram Bot Starter Kit — 오후 한나절 만에 수익 창출이 가능한 Telegram 봇을 출시하세요. $25.*

이번 달 귀하의 LLM API 청구서는 어떤 모습인가요? 프로젝트 중간에 제공업체를 교체해 본 적이 있나요? 댓글을 남겨주세요 — 다른 1인 개발자들은 이 문제를 어떻게 다루고 있는지 진심으로 궁금합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0