LiteLLM을 넘어 전환해야 할 시점 (그리고 전환하지 말아야 할 시점)

LiteLLM은 현대 AI 스택에서 가장 유용한 도구 중 하나이며, 다른 무엇보다 이 점을 분명히 말씀드리고 싶습니다. 만약 AI 애플리케이션을 구축 중인데 아직 사용해 보지 않으셨다면: 약 5분 만에 100개 이상의 LLM 제공업체에 연결되는 작동 가능한 프록시(proxy)를 구축할 수 있고, OpenAI와 호환되며, MIT 라이선스를 따르고, 거대한 커뮤니티를 보유하고 있습니다. 이는 진정으로 훌륭한 소프트웨어이며 많은 팀에게 적절한 기본 선택지입니다.

제가 하고 싶은 비교는 "LiteLLM이 나쁘다"는 것이 아닙니다. LiteLLM이 잘하는 구체적인 것들, 규모가 커짐에 따라 고통스러워지는 구체적인 부분들, 그리고 TrueFoundry가 어떻게 다른지에 대한 것입니다. 만약 현재 LiteLLM을 사용 중이고 잘 작동하고 있다면, 아마 이 글의 나머지 부분을 읽을 필요는 없을 것입니다.

LiteLLM이 진정으로 잘하는 것

몇 분 만에 구축 완료 (Zero-to-working in minutes). LiteLLM proxy는 pip install litellm[proxy] 명령과 설정 파일 하나면 충분합니다. 같은 날 오후에 OpenAI, Anthropic, Bedrock, Vertex로 라우팅(routing)을 할 수 있습니다. Kubernetes, 컨트롤 플레인(control plane), 벤더(vendor) 관계가 필요하지 않습니다. 프로토타이핑, 팀 데모, 초기 단계 제품을 위해서는 이것이 올바른 트레이드오프 (tradeoff)입니다.

100개 이상의 제공업체, 활발한 유지보수. LiteLLM의 제공업체 목록은 포괄적이며 최신 상태를 유지합니다. 새로운 모델 제공업체가 출시되면, LiteLLM은 보통 며칠 내에 지원을 시작합니다. 커뮤니티의 기여는 실질적입니다.

Python 팀을 위한 Python 네이티브 (Python-native). ML 엔지니어링 팀은 Python 환경에서 활동합니다. LiteLLM은 자연스럽게 통합됩니다. 라이브러리나 프록시로 호출할 수 있고, 콜백(callbacks)을 통해 기존의 Prometheus/Langfuse/LangSmith 설정에 연결할 수 있으며, 팀이 이미 알고 있는 동일한 언어로 동작을 커스터마이징할 수 있습니다.

작동하는 비용 및 라우팅 기본 기능. 멀티 제공업체 라우팅 (Multi-provider routing), 로드 밸런싱 (load balancing), 기본적인 예산 추적 — 이 모든 기능은 소규모에서 중규모 배포를 위해 상당한 인프라를 구축하지 않고도 작동합니다.

커뮤니티. GitHub 이슈가 분류(triage)되고, 문서가 최신 상태로 유지되며, Discord에서 활발한 지원이 이루어집니다. 전담 AI 플랫폼 엔지니어가 없는 팀에게는 커뮤니티의 대응력이 매우 중요합니다.

마찰이 시작되는 지점

이러한 점들은 LiteLLM의 설계 선택에 대한 비판이 아니라, 해당 프로젝트의 성격상 발생하는 자연스러운 결과입니다. 하지만 실제 운영(production) 단계에 깊이 들어가기 전에 이를 이해해 둘 가치가 있습니다.

확장 시의 Redis 및 Postgres. SQLite를 사용하는 단일 인스턴스 LiteLLM은 개발용으로는 괜찮습니다. 하지만 대규모 운영 환경에서는 Postgres(자체 문서에 따르면 약 5k RPS를 초과할 경우 읽기 복제본(read replicas) 필요)와 속도 제한(rate limiting), 예산 집행(budget enforcement), 그리고 여러 인스턴스 간의 데드락(deadlock) 문제를 방지하기 위한 Redis가 필요합니다. 10개 이상의 인스턴스를 사용할 경우, 동일한 행(row)에 동시 업데이트가 몰리는 것을 방지하기 위해 예산 쓰기 작업은 Redis를 거쳐야 합니다. 이는 프록시(proxy), 데이터베이스(database), 캐시(cache)라는 세 가지 시스템을 운영해야 함을 의미하며, 각 시스템은 고유한 장애 모드(failure modes)와 운영 오버헤드(operational overhead)를 가집니다.

Python 런타임의 한계. LiteLLM은 Uvicorn 위에서 실행됩니다. 자체 운영 문서에서도 수직적 확장(vertical scaling)보다는 Pod당 하나의 워커(worker)를 할당하는 수평적 확장(horizontal scaling)을 권장합니다. 이는 Python 비동기(async) 방식에 적합한 아키텍처이지만, 불균일한 부하(uneven load) 상황에서 정적 타입의 컴파일 언어(statically-typed, compiled-language) 게이트웨이보다 지연 시간(latency) 예측성을 유지하기가 더 어려울 수 있음을 의미합니다.

비동기 예산 집행 (Async budget enforcement). 제가 가장 구체적으로 지적하고 싶은 부분입니다. 높은 동시성(high concurrency) 환경에서 LiteLLM의 달러 예산 제한은 사후에 약간 늦게 적용됩니다. 즉, 체크가 실행되기 전에 지출이 제한을 초과할 수 있습니다. 엄격한 예산 거버넌스(budget governance)가 필요한 경우, 이 점은 매우 중요합니다.

가드레일(Guardrails)은 통합 방식에 따라 달라집니다. LiteLLM의 가드레일 커버리지는 훌륭하며, 많은 제공업체(providers)에 연결할 수 있습니다. 하지만 각 가드레일은 동일한 데이터 거주 구역(residency zone) 내에서 운영해야 하는 외부 서비스입니다. 개인정보(PII) 탐지를 위해서는 Presidio를 별도의 서비스로 실행해야 합니다. 규제가 엄격한 워크로드(regulated workloads)의 경우, 모든 외부 의존성(external dependency)은 데이터 처리 합의서(DPA) 검토에 포함해야 하는 시스템이 됩니다.

프롬프트 관리 (Prompt management)는 여전히 성숙해가는 단계입니다. LiteLLM의 AI Gateway 프롬프트 관리 기능은 SSO, 감사 로그 (audit logs), 비용 추적 (spend tracking)을 갖추어 프로덕션 환경에서 사용할 수 있는 수준(production-ready)입니다. 하지만 커스텀 백엔드 (custom backends)를 지원하는 범용 프롬프트 관리 API (Generic Prompt Management API)는 이 글을 작성하는 시점 기준으로 문서상에 여전히 베타(Beta) 단계로 표시되어 있습니다. 만약 귀하의 유스케이스(use case)가 범용 API를 필요로 한다면, 컴플라이언스(compliance)가 중요한 워크플로우에 이를 의존하기 전에 현재 상태를 확인하십시오.

에이전트 (Agents)는 매우 초기 단계입니다. LiteLLM은 2026년 5월에 관리형 에이전트 플랫폼 (Managed Agents Platform)을 출시했으며, 현재 알파(alpha) 공개 프리뷰 단계에 있습니다. 이는 MIT 라이선스이며 Kubernetes 기반으로 작동하며 유망해 보입니다. 하지만 "알파"는 "알파"일 뿐입니다. 오늘날 프로덕션 에이전트 거버넌스 (agent governance)가 필요한 팀이라면, 도입을 결정하기 전에 도구 호출 후 검사 (post-tool-call inspection) 및 다운스트림 도구 호출을 위한 자격 증명 브로커링 (credential brokering) 측면에서 현재 존재하는 격차를 평가해 볼 가치가 있습니다.

TrueFoundry가 다르게 접근하는 방식

TrueFoundry는 LiteLLM의 단순한 대체재(drop-in replacement)가 아니라, 더 넓은 서비스 영역(surface area)을 제공합니다. 귀하는 단순히 하나의 프록시(proxy)를 다른 것으로 교체하는 것이 아니라, **Kubernetes 네이티브 컨트롤 플레인 (Kubernetes-native control plane)**을 채택하는 것입니다. 이것이 정직한 프레임워크입니다.

핫 패스(hot path) 상의 모든 작업은 인메모리(in-memory)로 처리됩니다. **인증 (Auth), 속도 제한 (rate limiting), RBAC 체크, 예산 집행 (budget enforcement), 그리고 가드레일 (guardrails)**은 모두 게이트웨이 프로세스 내부의 인메모리에서 실행되므로, 요청 경로(request path)에서 Redis 호출이 발생하지 않습니다. 공개된 수치에 따르면, 포드(pod)당 250 RPS에서 오버헤드는 약 3ms이며, 포드 수에 따라 선형적으로 확장됩니다. PII(개인 식별 정보), PHI(보호 대상 건강 정보) 및 비밀 정보(secrets) 탐지는 외부 서비스 없이 프로세스 내에서 실행되며, 이는 에어갭(air-gapped) 배포 환경에서 중요합니다.

Kubernetes 네임스페이스 (namespaces)를 통한 물리적 테넌트 격리 (Physical tenant isolation). LiteLLM의 팀 격리는 논리적(logical)입니다. 즉, 가상 키와 팀별 예산을 사용합니다. 반면 TrueFoundry의 격리는 물리적(physical)입니다. Kubernetes 네임스페이스 경계가 인프라 계층에서 워크로드, 비밀 정보(secrets), 그리고 정책(policies)을 분리합니다. 만약 귀하의 컴플라이언스 팀이 물리적 격리 보장을 문서로 요구한다면, 조달(procurement) 과정에서 이 차이점이 논의될 것입니다.

라우팅과 병행하는 모델 배포 (Model deployment alongside routing). 이것이 가장 큰 구조적 차이점입니다. TrueFoundry는 외부 API 라우팅(routing)과 셀프 호스팅(self-hosted) 모델 배포를 동일한 제어 평면(control plane)에서 관리하며 전체 라이프사이클을 관리합니다. GPT-4o에서 셀프 호스팅된 Llama 배포로 전환하는 것은 단순한 설정 변경일 뿐입니다. LiteLLM의 경우, 셀프 호스팅된 엔드포인트로 라우팅하는 것은 쉽지만, 해당 엔드포인트를 배포하고 관리하려면 별도의 플랫폼이 필요합니다.

프로덕션급 MCP 거버넌스 (MCP governance is production-grade). 가상 MCP 서버, 도구 접근에 대한 RBAC(역할 기반 액세스 제어), Cedar 기반 정책 강제 적용, 그리고 도구가 모델에 도달하기 전 반환값을 검사하는 것을 포함한 호출 전/후 가드레일(guardrails)을 제공합니다. 이는 LiteLLM의 현재 에이전트 알파(agents alpha) 버전에서는 사용할 수 없는 기능입니다.

SCIM, SSO, 그리고 ITAR. TrueFoundry는 자동화된 사용자/그룹 관리를 위한 SCIM 기반 프로비저닝(provisioning), OIDC 또는 SAML 2.0을 통한 SSO를 지원하며, 국방/항공우주 워크로드를 위해 문서화된 ITAR 준수 배포 옵션을 제공합니다.

운영 비용의 트레이드오프 (The operational cost tradeoff)

TrueFoundry의 "TCO(총 소유 비용) 35-50% 절감" 주장(자사 사이트 기준)은 방법론적 근거가 없는 마케팅에 가까운 수치입니다. 이 수치는 주의해서 받아들여야 합니다. 더 솔직한 프레임워크로 표현하자면, LiteLLM과 함께 Redis 클러스터, Postgres 인스턴스, Presidio, 그리고 여러 옵저버빌리티(observability) 콜백을 운영해야 하는 시점에 도달했다면, 귀하의 운영 표면적(operational surface area)은 이미 상당합니다. TrueFoundry는 이러한 많은 부분을 플랫폼 내부로 통합하지만, 귀하는 운영 오버헤드(operational overhead)를 벤더 종속성(vendor dependency) 및 상용 라이선스 비용과 맞바꾸는 것입니다.

둘 중 어느 것도 공짜는 아닙니다. 질문은 귀하가 어떤 비용을 지불하고 싶은가입니다.

무엇을 선택할 것인가

카테고리	LiteLLM	TrueFoundry
주요 초점	오픈 소스 LLM 프록시 및 라우팅 레이어	통합 AI 게이트웨이를 갖춘 엔터프라이즈 AI 플랫폼
...
LiteLLM을 계속 사용해야 하는 경우:

당신이 초기 단계(early-stage)에 있거나 프로토타입을 제작하는 경우 — LiteLLM의 '0에서 작동까지' 속도는 타의 추종을 불허합니다.
팀이 Python 네이티브이며 해당 생태계에 머물고 싶은 경우
활발한 커뮤니티 유지보수가 이루어지는 광범위한 제공업체(provider) 지원이 필요한 경우
아직 프로덕션 에이전트 거버넌스(agent governance) 요구사항이 없는 경우
상용 플랫폼을 위한 예산 확보가 어렵거나 정당화되지 않는 경우

TrueFoundry를 평가해야 하는 경우:

**확장성 문제(scaling issues)**에 직면하여 Redis/Postgres 운영 오버헤드를 추가하는 경우
컴플라이언스 팀이 **물리적 테넌트 격리, 인-프로세스 PII 탐지 또는 ITAR 자세(posture)**를 필요로 하는 경우
셀프 호스팅 모델을 배포할 계획이며 통합 관리를 원하는 경우
오늘날 프로덕션 등급의 MCP 거버넌스 (도구 호출 전후 검사)가 필요한 경우
SCIM 기반 프로비저닝이 필요하며, 관찰 가능성(observability)을 위한 콜백 통합 관리에서 벗어나고 싶은 경우

솔직한 마이그레이션 트리거. 신호는