2026년에는 존재해서는 안 될 세 가지 LLM 인프라 문제

요약

LLM 인프라의 세 가지 주요 문제인 높은 비용, 비효율적인 폴백 메커니즘, 불투명한 오버헤드를 해결하기 위한 솔루션을 제안합니다. 쿼리별 라우팅을 통한 비용 절감과 병렬 실행을 통한 최적의 답변 도출 방식을 소개합니다.

핵심 포인트

쿼리 복잡도에 따른 모델 라우팅으로 API 비용 62% 절감 가능
순차적 폴백 대신 병렬 실행 및 점수화 방식을 통한 최적 답변 확보
게이트웨이 오버헤드에 대한 투명한 벤치마크 데이터 공개의 중요성

LLM 인프라에는 2026년에는 존재해서는 안 될 세 가지 문제가 있습니다. 다른 누구도 해결하지 않았기에 우리가 직접 구축한 해결책을 소개합니다.

문제 1: 불필요하게 높은 LLM 비용

모두가 모든 요청을 GPT-4로 라우팅(Routing)합니다. 쿼리별 라우팅(Per-query routing)을 설정할 시간이 없기 때문입니다. 그 결과, 추가적인 가치 없이 비용이 원래 있어야 할 수준보다 3~5배 높게 발생합니다.

이 문제 때문에 이미 많은 사람들이 전환하고 있습니다. X(구 트위터)의 한 개발자는 다음과 같이 말했습니다: _"Claude Code Pro와 ChatGPT Pro를 모두 해지했습니다. Kimi K2.6은 제 사이드 프로젝트에서 Opus나 GPT 5.4만큼이나 훌륭합니다. 가격이 말도 안 되게 저렴합니다."

또 다른 사례도 있습니다: _"시맨틱 검색(Semantic search)을 위해 gemini-embedding-2를 사용하여 27,603개의 노트를 벡터화(Vectorize)했습니다. 총 비용은 0.07달러였습니다. 정말 놀랍습니다."

패턴은 명확합니다. 개발자들은 적극적으로 더 저렴한 대안을 찾고 있습니다. 문제는 시간을 낭비하지 않으면서 쿼리별로 이를 수행하는 것입니다.

우리는 모든 쿼리를 복잡도에 따라 분류하고, 해당 작업을 수행할 수 있는 가장 저렴한 모델로 보내는 라우터(Router)를 구축했습니다.

"임상 시험 프로토콜 설계"  → premium  ($2.50/M tokens)
"Python 정렬 함수 작성"      → groq     ($0.20/M tokens)  
"2+2는 무엇인가?"            → free     ($0.00/M tokens)

결과: 200개의 실제 API 호출을 통해 측정된 62%의 비용 절감을 달성했습니다. 이론적인 수치가 아닙니다.

문제 2: 순차적 폴백(Sequential fallback)은 최선의 답이 아닌 단 하나의 답만 제공한다

모든 게이트웨이(Gateway)는 다음과 같이 작동합니다: A 시도 → 실패 → B 시도 → 실패 → C 시도.

당신은 항상 특정 제공업체의 답변 하나만을 받게 됩니다. 모든 제공업체를 통틀어 가장 좋은 답을 받는 것이 아닙니다. 만약 A가 느리다면, 모든 과정이 대기하게 됩니다.

이 문제가 매우 흔한 고통이기 때문에, 누군가는 이미 재시도 및 폴백 메커니즘을 위한 라이브러리인 ai-retry를 만들었습니다. 사람들은 이를 수동으로 우회하며 사용하고 있습니다.

우리는 한 발 더 나아갔습니다. 모든 제공업체를 병렬(Parallel)로 실행합니다. 구체성, 구조, 관련성을 기준으로 모든 결과를 점수화합니다. 그리고 왜 그 답변이 선정되었는지에 대한 이유와 함께 최선의 답변을 반환합니다.

const result = await executeEnsemble(query, context, {
  nvidia: callNvidia,
  groq: callGroq,
...

문제 3: 모든 게이트웨이가 "무시할 만한 오버헤드(Negligible overhead)"라고 주장하지만, 아무도 수치를 공개하지 않는다.

그것은 전형적인 문구입니다. "무시할 만한 오버헤드(Negligible overhead)"라고 말한 뒤, 데이터는 전혀 제시하지 않는 것이죠.

우리는 우리의 시스템을 제3자 벤치마크 도구(llm-gateway-bench)로 테스트하고 모든 것을 공개했습니다:

시나리오	시간	포함 항목
Groq로 직접 연결	138ms	원시 API 호출 (Raw API call)
A3M을 통한 연결	374ms	라우팅 (Routing) + 캐시 (Cache) + 가드레일 (Guardrails) + 비용 추적 (Cost tracking)

236ms의 오버헤드가 발생했습니다. 0은 아닙니다. 하지만 API 비용을 62% 절감합니다. 이는 월 10만 건의 쿼리 기준 연간 약 $2,600에 달하는 금액입니다.

성장 이유

14일 만에 10,024회의 다운로드를 기록했습니다. 마케팅은 전혀 없었습니다. 개발자들이 npm에서 이를 발견했고, 사용해 보았으며, 다른 개발자들에게 알렸습니다.

피드백 루프는 다음과 같았습니다: "청구 금액이 너무 높아요" → 62% 절감. "첫 번째 답변이 아니라 가장 좋은 답변을 원해요" → 병렬 앙상블 (Parallel ensemble). "당신의 지연 시간(Latency) 주장을 믿을 수 없어요" → 여기 제3자 벤치마크가 있으니 직접 실행해 보세요.

npm: npm install adaptive-memory-multi-model-router

GitHub: github.com/Das-rebel/a3m-router

Benchmarks: llm-gateway-bench를 통한 제3자 측정 결과

AI 자동 생성 콘텐츠

원문 바로가기