모든 작업에 하나의 LLM만 사용하지 마세요: 모델 라우팅(Model Routing)을 위한 개발자 가이드

현재 LLM 스택의 문제점

만약 당신이 "가장 좋은 모델이니까"라는 이유로 모든 프롬프트를 GPT-4나 Claude Opus로 보내고 있다면, 아마도 과도한 비용을 낭비하고 있을 가능성이 높습니다. 고객 지원 티켓의 감정(Sentiment)을 분류하는 작업이 제품 요구사항 문서(PRD)를 생성하는 작업만큼의 강력한 성능을 필요로 하지는 않습니다. 하지만 제가 보는 대부분의 코드베이스는 모든 LLM 호출이 동일한 가치를 지닌 것처럼 취급하고 있습니다.

모델 라우팅(Model Routing)이 이 문제를 해결합니다. 모든 것에 하나의 모델을 사용하는 대신, 복잡성(Complexity), 비용(Cost), 그리고 지연 시간(Latency) 요구사항에 따라 각 작업을 처리할 모델을 동적으로 선택하는 것입니다. 이를 지능을 위한 로드 밸런싱(Load Balancing)이라고 생각하면 됩니다.

모델 라우팅의 실제 모습

핵심적으로 라우터(Router)는 당신의 애플리케이션과 LLM 제공업체 사이의 미들웨어(Middleware) 역할을 합니다. 다음과 같은 사고 모델을 가집니다:

def route_llm_request(task):
    complexity = analyse_task(task)

...

물론 실제 프로덕션 환경에서의 구현은 더 정교하겠지만, 원칙은 동일합니다: 작업을 검사하고, 해당 작업을 안정적으로 처리할 수 있는 가장 저렴한 모델을 선택하라는 것입니다.

작업을 모델에 매핑하기

어려운 부분은 라우팅 로직이 아니라, 작업에 대한 합리적인 분류 체계(Taxonomy)를 구축하는 것입니다. 실제로 LLM에 무엇을 보내고 있는지 감사(Audit)하는 것부터 시작하세요:

분류 작업 (Classification tasks): 의도 탐지(Intent detection), 감정 분석(Sentiment analysis), 카테고리 할당. 이는 종종 이진(Binary) 또는 다중 클래스(Multi-class) 결정입니다. GPT-3.5-turbo 또는 GPT-4o-mini조차도 훨씬 적은 비용으로 이러한 작업을 훌륭하게 처리합니다.
검색 증강 생성 (Retrieval-augmented generation, RAG): 문서에서 질문에 답하기. 중간 정도의 복잡성을 가집니다. Claude Haiku 또는 Gemini Flash와 같은 모델은 플래그십 모델의 가격 없이도 견고한 성능을 제공합니다.
콘텐츠 생성 (Content generation): 이메일 초안 작성, 코드 작성, 마케팅 문구 생성. 이 부분은 실제로 GPT-4 또는 Claude Opus가 필요할 수 있는 영역이지만, 오직 그 중요도가 비용을 정당화할 때만 해당됩니다.
구조화된 추출 (Structured extraction): 텍스트에서 엔티티(Entity) 추출, 송장 파싱. JSON 스키마(Schema)를 정의할 수 있다면, 특히 함수 호출(Function calling) 기능을 사용할 때 더 작은 모델들도 잘 작동합니다.

핵심 통찰: 대부분의 애플리케이션은 소수의 복잡한 작업들을 보조하는 **단순 작업의 롱테일 (long tail of simple tasks)**을 가지고 있습니다. 이에 따라 라우팅(Routing)하십시오.

성과 추적하기

텔레메트리 (Telemetry)가 필요합니다. 다음 항목을 포함하여 모든 라우팅 결정을 로그로 남기세요:

{
  taskId: uuid(),
  taskType: "classification",
...

일주일 후에 이를 집계해 보면 다음과 같은 사실을 발견하게 될 것입니다:

요청의 70% 이상이 단순하며 더 저렴한 모델을 사용할 수 있음
비용의 가장 큰 부분은 요청의 5~10%에서 발생함
더 작은 모델이 더 빠르기 때문에 지연 시간 (Latency)이 개선됨

제가 함께 일했던 한 팀은 분류 (Classification) 및 추출 (Extraction) 작업을 GPT-4에서 다른 모델로 라우팅하는 것만으로 월간 LLM 비용을 60% 절감했습니다. 비즈니스 로직은 변경되지 않았고, 단지 그 아래의 인프라만 변경되었을 뿐입니다.

폴백 전략 (Fallback Strategies) 및 제공업체 다양성

라우팅은 회복 탄력성 (Resilience)도 제공합니다. 만약 OpenAI의 API가 다운된다면 (반드시 발생할 것입니다), 라우터는 Anthropic이나 Gemini로 페일오버 (Failover)할 수 있습니다. 이를 위해서는 다음이 필요합니다:

정규화된 인터페이스 (Normalised interfaces): 제공업체별 SDK를 공통 인터페이스 뒤로 추상화합니다.
재시도 로직 (Retry logic): 속도 제한 (Rate limits) 및 실패를 포착하고, 해당 티어의 다음 모델을 시도합니다.
서킷 브레이커 (Circuit breakers): 제공업체가 지속적으로 실패할 경우 일시적으로 해당 제공업체를 건너뜁니다.

def call_with_fallback(task, models_list):
    for model in models_list:
        try:
...

이러한 멀티 프로바이더 (Multi-provider) 접근 방식은 벤더 종속 (Vendor lock-in)도 방지합니다. 단일 API에 얽매이지 않으면 더 나은 가격을 협상할 수 있고 새로운 모델을 더 빠르게 채택할 수 있습니다.

시작하기

첫날부터 넷플릭스 규모의 라우팅 시스템을 구축할 필요는 없습니다. 간단하게 시작하세요:

프롬프트 분류하기. 오후 시간을 할애하여 요청 샘플을 복잡도에 따라 태깅해 보세요.
각 카테고리별 모델 벤치마크 수행. 정확도, 비용, 지연 시간을 테스트하세요.
기본적인 라우터 구현. 하드코딩된 if/else 문만으로도 즉시 비용을 절감할 수 있습니다.
모든 것에 계측 (Instrument) 적용. 측정하지 않는 것은 최적화할 수 없습니다.
반복 개선. 사용 패턴이 나타남에 따라 더 정교한 라우팅 규칙을 추가하세요.

이 접근 방식 뒤에 숨겨진 전략적 사고를 더 깊이 파고들고 싶다면, AI 자동화 및 소프트웨어 개발 팀이 작성한 LLM 대규모 배포(deploying LLMs at scale)에 관한 글을 읽어볼 가치가 있습니다.

결론

모든 작업에 하나의 모델만 사용하는 것은 모든 데이터베이스 쿼리를 프로덕션 마스터(production master)에 직접 실행하는 것과 같습니다. 물론 작동은 하겠지만, 낭비적이고 취약합니다. 모델 라우팅(Model routing)은 비용 제어, 성능 여유(performance headroom), 그리고 아키텍처의 유연성을 제공합니다.

작게 시작하고, 모든 것을 측정하며, 데이터가 라우팅 결정을 안내하도록 하세요. 여러분의 인프라 예산이 고마워할 것입니다.