API 비용을 절반으로 줄인 LLM 라우터(Router) 구축기

요약

LLM API 비용 과다 지출 문제를 해결하기 위해 프롬프트 복잡도를 실시간으로 분류하고 최적의 모델로 연결하는 LLM 라우터를 구축한 사례입니다. Pydantic AI와 LiteLLM을 활용하여 품질 저하 없이 API 비용을 62% 절감했습니다.

핵심 포인트

프롬프트 복잡도에 따른 동적 모델 라우팅으로 비용 62% 절감
Pydantic AI의 구조화된 출력을 활용한 안정적인 복잡도 분류
LiteLLM을 통한 다양한 모델의 통합 관리 및 라우팅
분류 과정에서 발생하는 200-400ms의 지연 시간 트레이드오프

API 비용을 절반으로 줄인 LLM 라우터(Router) 구축기

문제점

지난달, LLM API 호출에 대한 저의 AWS 청구액이 4,200달러에 달했습니다. 정말 뼈아픈 경험이었습니다.

로그를 조사한 결과, 저는 단순 분류 작업(simple classification tasks)을 GPT-4o — MTok당 15달러인 플래그십 모델 — 에 보내고 있었습니다. 사실 MTok당 0.30달러인 모델로도 충분히 완벽하게 처리할 수 있는 작업들이었습니다. 동시에, 저렴한 API들이 복잡한 추론 작업(complex reasoning tasks)을 처리하지 못할 때는 속도 제한(rate limits)에 걸리기도 했습니다.

진짜 문제는 각 프롬프트(prompt)에 실제로 어떤 모델이 필요한지에 대한 가시성(visibility)이 없었다는 점입니다. 비싼 모델을 사용하여 과잉 할당(over-provisioning)하거나, 조용히 실패하는 저렴한 모델을 사용하여 과소 할당(under-provisioning)하는 상황이 반복되었습니다.

그래서 저는 프롬프트의 복잡도(complexity)를 실시간으로 분류하고, 각 요청을 이를 처리할 수 있는 가장 저렴한 모델로 라우팅(routing)하는 LLM 라우터를 구축했습니다. 그 결과는 어땠을까요? 품질을 유지하면서도 비용을 62% 절감했습니다.

아키텍처 (Architecture)

시스템은 세 가지 계층으로 작동합니다:

복잡도 분류기 (Complexity Classifier) (Pydantic AI + Claude 3.5 Haiku)
모델 라우터 (Model Router) (LiteLLM + 동적 가격 조회)
비용 추적기 (Cost Tracker) (실시간 지출 집계)

흐름은 다음과 같습니다:

사용자 프롬프트 (User Prompt)
    ↓
[복잡도 분류기 (Complexity Classifier)] → {simple|moderate|complex|reasoning}
...

핵심 패턴 (The Core Pattern)

저는 복잡도 점수를 안정적으로 추출하기 위해 **Pydantic AI의 구조화된 출력 (structured outputs)**을 사용합니다:

from pydantic_ai import Agent
from pydantic import BaseModel

...

카테고리가 결정되면, 라우터가 모델을 선택합니다:

MODEL_MAP = {
    "simple": ("groq/llama-3.1-8b", 0.0002),
    "moderate": ("gpt-4o-mini", 0.0005),
...

FastAPI 래퍼(wrapper)가 모든 것을 오케스트레이션(orchestrate)하며, 실시간 지출 가시성을 위해 /stats 엔드포인트를 노출합니다.

트레이드오프 (Trade-offs) - 솔직하게

콜드 스타트 지연 시간 (Cold-start latency): 복잡도 분류 과정에서 약 200-400ms의 오버헤드(overhead)가 추가됩니다. 대화형 앱(interactive apps)에서는 이 부분이 중요합니다. 이를 완화하기 위해 의미론적 유사성(semantic similarity)을 기반으로 분류 결과를 캐싱(cache)하고 있지만, 완벽하지는 않습니다.

분류에서의 예외 사례 (Edge cases): 복잡도 분류기(complexity classifier)가 때때로 비꼬는 말투(sarcasm), 특정 도메인 전문 용어(domain-specific jargon), 그리고 코드가 많이 포함된 프롬프트(code-heavy prompts)에서 오작동합니다. 복잡한 SQL 쿼리를 "단순함"으로 분류하면 여전히 잘못된 경로로 라우팅됩니다. 저는 이를 피드백 루프(사용자가 라우팅 결정에 대해 upvote/downvote 가능)를 통해 처리하고 있지만, 수동 보정(manual calibration)은 계속 진행 중입니다.

제공자별 특이사항 (Provider-specific quirks): LiteLLM이 API를 추상화(abstract)해주지만, Groq에는 속도 제한(rate limits)이 있고, Claude는 토큰 계산 방식이 다르며, GPT-4o는 때때로 모호한 프롬프트를 다르게 해석합니다. 테스트 없이 단순히 모델을 교체할 수는 없습니다.

결과 (Results)

3개월 동안:

비용 62% 절감 ($4,200 → $1,598/월)
품질 99.2% 유지 (사용자 만족도 설문조사를 통해 측정)
총 1,847회의 API 호출 라우팅; 73%가 Groq 또는 GPT-4o mini로 전송됨
평균 지연 시간 오버헤드 (Average latency overhead): 240ms

다음 단계 (Next Steps)

오픈 소스 버전은 기초를 제공합니다. 유료 버전에는 다음 기능이 추가됩니다:

시간이 지남에 따라 자동으로 수행되는 비용 최적화 (ML 기반 분류 튜닝)
모델 교체를 위한 A/B 테스트 프레임워크
감사 추적(Audit trails) 및 컴플라이언스 보고서
특정 도메인(고객 지원, 코딩, 분석)을 위한 사전 학습된 분류기(Pre-trained classifiers)

저는 이것을 GitHub에 오픈 소스 프리뷰로 패키징했습니다: https://github.com/Reactance0083/pydantic-ai-multi-llm-cost-optimizer — 테스트와 문서가 포함된 전체 프로덕션 버전은 **https://reactance0083.gumroad.com/l/ztmlv**에서 확인할 수 있습니다.

즐거운 라우팅 되시길 바랍니다!

AI 자동 생성 콘텐츠

원문 바로가기

API 비용을 절반으로 줄인 LLM 라우터(Router) 구축기

요약

핵심 포인트

API 비용을 절반으로 줄인 LLM 라우터(Router) 구축기

문제점

아키텍처 (Architecture)

핵심 패턴 (The Core Pattern)

트레이드오프 (Trade-offs) - 솔직하게

결과 (Results)

다음 단계 (Next Steps)

댓글