AI 토큰의 3계층 아키텍처: 왜 중간 계층이 스택을 잠식하고 있는가

똑똑한 사람들이 AI 인프라에 대해 이야기하는 방식에 흥미로운 변화가 일어나고 있습니다.

지난 2년 동안 대화의 중심은 모델 (models) 이었습니다. 어떤 모델이 가장 큰지, 어떤 모델이 코드를 가장 잘 쓰는지, 어떤 모델이 가장 먼저 AGI에 도달할지에 대한 논의였습니다. 그 대화가 사라진 것은 아니지만, 최근의 AI 인프라 서밋에서는 다른 프레임워크가 조용히 자리를 잡아가고 있습니다. 업계 전문가들과 학계 연구자들은 토큰 경제 (token economy)를 우리가 클라우드 컴퓨팅 (cloud computing)을 생각하게 된 방식과 유사하게 **3계층 스택 (three-layer stack)**으로 설명하기 시작했습니다.

그 프레임워크는 다음과 같습니다:

Layer 1 — 생산자 (Producers). 최첨단 LLM을 실제로 훈련하고 서비스하는 모델 연구소들.
Layer 2 — 애그리게이터 (Aggregators). API를 표준화하고, 용량을 풀링하며, 사용자에게 비용을 청구하는 미들웨어 (middleware).
Layer 3 — 스케줄러 (Schedulers). 각 요청을 적절한 가격의 적절한 모델로 라우팅 (routing)하는 지능.

오늘날 AI로 무언가를 구축하고 있다면, 당신은 거의 확실히 Layer 1에 머물며 한두 개의 모델 제공업체와 직접 대화하고 있을 것입니다. 만약 벤더 종속 (vendor lock-in), 용량 부족으로 인한 서비스 중단, 또는 예상치 못한 청구서로 인한 고통을 느꼈다면, 이 3계층 프레임워크는 왜 그런 고통이 존재하는지, 그리고 그 문제가 어디에서 해결될 것인지를 정확히 설명해 줍니다.

스포일러: 그 문제는 중간 계층에서 해결될 것입니다. 이 포스트는 그 이유에 관한 것입니다.

단일 모델 시대는 조용히 끝나가고 있다

2023년의 전형적인 AI 앱은 gpt-3.5-turbo를 감싼 래퍼 (wrapper)였습니다. 2024년에는 비용 절감을 위해 gpt-3.5로 폴백 (fallback) 기능을 갖춘 gpt-4 래퍼였습니다. 그것이 아키텍처 (architecture)의 전부였습니다.

2026년에 출시된 실제 서비스 중인 AI 앱을 살펴보면 그림이 근본적으로 바뀌어 있습니다. 제가 지난달에 대화했던 한 B2B SaaS 팀의 실제 사례는 다음과 같습니다:

고객 대응 채팅: 일반적인 대화에는 DeepSeek V3를 사용하고, 에스컬레이션 (escalation) 시에만 GPT-4o 사용
중국어 문서에 대한 내부 RAG (Retrieval-Augmented Generation): Qwen 2.5-72B
긴 문서 요약: Kimi K2 (백만 토큰 컨텍스트 (context) 덕분에)
구조화된 추출 (Structured extraction): GLM-4-Flash (저렴하고 신뢰할 수 있음)
코딩 에이전트 (Coding agent): Claude 3.5 Sonnet
임베딩 (Embeddings): 자체 호스팅된 오픈 모델 (open model)

여섯 개의 모델. 여섯 개의 서로 다른 API. 여섯 개의 서로 다른 결제 대시보드. 여섯 개의 서로 다른 속도 제한 (rate-limit) 정책. 새벽 3시에 호출을 당할 여섯 개의 서로 다른 방식들.

이는 팀이 과도한 엔지니어링 (over-engineering)을 하고 있기 때문이 아닙니다. 이제는 단 하나의 모델이 모든 면에서 최고일 수 없기 때문이며, 모델 간의 가성비 (price-performance) 격차가 너무 커져서 특정 작업에 잘못된 모델을 선택하는 것만으로도 비용이 30배까지 불어날 수 있기 때문입니다. DeepSeek에서는 $0.0003이면 해결될 요청이, 해당 작업에 대해 질적으로 동일한 결과물을 내놓는 GPT-4o에서는 $0.01이 들 수도 있습니다.

만약 당신이 여전히 "OpenAI 앱"을 만들고 있다면, 당신은 어제의 아키텍처를 만들고 있는 것입니다. 멀티 모델 (multi-model) 앱이 새로운 기본값(default)이며, 멀티 모델 앱은 그 아래에 다른 종류의 인프라를 필요로 합니다.

3계층 아키텍처, 제대로 설명하기

코드를 배포해 본 경험이 있는 분들이라면 이해할 수 있도록 세 가지 계층을 풀어보겠습니다.

계층 1: 프로듀서 (Producers) — 토큰 공장

프로듀서는 프롬프트 (prompt)를 토큰 (token)으로 변환하는 추론 클러스터 (inference clusters)를 운영하고 프론티어 모델 (frontier models)을 학습시키는 연구소들입니다. OpenAI, Anthropic, Google, Meta, DeepSeek, Moonshot, Zhipu, Alibaba의 Qwen 팀, Mistral — 이들 모두가 프로듀서입니다.

프로듀서는 다음 세 가지 요소로 경쟁합니다:

역량 (Capability) — 벤치마크 점수, 추론 깊이, 컨텍스트 길이 (context length), 멀티모달리티 (multimodality).
단위 경제성 (Unit economics) — 토큰당 비용, GPU당 처리량 (throughput).
전문화 (Specialization) — 중국어 품질, 코딩 능력, 롱 컨텍스트 회상 (long-context recall), 함수 호출 (function calling).

프로듀서들이 경쟁하지 않는 요소는 일관성 (consistency)입니다. 모든 프로듀서의 API는 미묘하게 다릅니다. 인증 (authentication) 방식이 다르고, 스트리밍 (streaming) 형식이 다르며, 함수 호출 스키마 (function-calling schemas)가 다릅니다. 심지어 temperature의 의미조차 벤더(vendor)마다 차이가 있습니다. 이는 악의적인 것이 아니라, 모든 플레이어가 최대 속도로 움직이는 시장의 자연스러운 상태일 뿐입니다.

또한 프로듀서는 당신의 워크로드 (workload)에 맞춰 최적화할 여유가 없습니다. 그들의 업무는 GPU를 계속 가동하는 것이고, 당신의 업무는 사용자를 만족시키는 것입니다. 이 두 목표는 항상 일치하지 않습니다.

Layer 2: Aggregators (애그리게이터) — 범용 번역기

애그리게이터(Aggregator)의 역할은 프로듀서(Producer) 계층이 마치 하나의 잘 관리되는 시스템처럼 보이도록 만드는 것입니다.

실제 애그리게이터는 최소한 다음의 일곱 가지를 수행합니다:

프로토콜 정규화 (Protocol normalization). 하나의 요청 스키마(일반적으로 OpenAI Chat Completions 형식)가 모든 백엔드 모델에 매핑됩니다.
신원 및 결제 (Identity and billing). 6개의 서로 다른 국가에서 6개의 서로 다른 KYC(본인 인증) 절차를 거쳐 6개의 계정을 만드는 대신, 하나의 API 키, 하나의 지갑, 하나의 인보이스로 처리합니다.
용량 풀링 (Capacity pooling). 애그리게이터는 여러 프로듀서로부터 사용 확약(Commitment)을 구매한 뒤 수요에 따라 재판매하므로, 개별 개발자가 자신의 사용량을 직접 예측할 필요가 없습니다.
지리적 접근성 (Geographic accessibility). 중국 본토, 유럽, 미국의 프로듀서들은 각기 고유한 접속 규칙을 가지고 있습니다. 애그리게이터는 예를 들어 브라질의 개발자가 중국 모델을 합법적이고 신뢰할 수 있게 사용할 수 있는 유일한 실질적 방법이 될 수 있습니다.
결제 유연성 (Payment flexibility). 전 세계 대부분의 개발자는 예를 들어 DeepSeek API에 비용을 지불하는 것을 쉽게 할 수 없습니다. 애그리게이터는 PayPal, 카드, 암호화폐 등 시장에서 실제로 사용되는 모든 결제 수단을 수용합니다.
관측 가능성 (Observability). 로그, 지연 시간(Latency) 지표, 에러율, 지출 대시보드를 한곳에서 확인할 수 있습니다.
호환성 심 (Compatibility shimming). 백엔드 프로듀서가 스키마를 변경할 때(그들은 항상 변경합니다), 애그리게이터가 그 파손을 흡수하여 사용자의 코드가 깨지지 않도록 합니다.

이 목록이 익숙하게 들린다면, 당연한 결과입니다. Stripe는 결제 프로세서를 위해 이 일을 했고, Cloudflare는 오리진 서버(Origin servers)를 위해 이 일을 했으며, Twilio는 통신사를 위해 이 일을 했습니다. 모든 경우에서, 이 "지루한" 중간 계층은 자신이 앞에 두고 있는 프로듀서들보다 전략적으로 더 중요해졌으며, 종종 더 높은 가치를 지니게 되었습니다.

Layer 3: Schedulers (스케줄러) — 라우팅 브레인

스케줄러는 애그리게이터 위에 위치하며, 요청별로 어떤 모델이 호출을 처리해야 할지를 결정합니다.

훌륭한 스케줄러는 다음 사항들을 고려합니다:

작업 유형 (Task type) (추론 (reasoning) vs. 요약 (summarization) vs. 추출 (extraction) vs. 번역 (translation))
요구되는 품질 계층 (Required quality tier) (고객 대면용인가 아니면 백그라운드용인가?)
각 후보 모델의 현재 100만 토큰당 가격
각 모델의 현재 상태 (health) 및 지연 시간 (latency)
첫 번째 선택이 실패할 경우의 폴백 정책 (Fallback policy)

오늘날 스케줄러는 보통 _애플리케이션 내부_의 수백 줄의 코드로 존재합니다. 몇 년 후에는 Kubernetes가 결국 모든 이들의 맞춤형 배포 스크립트를 집어삼켰던 방식과 매우 유사하게, 관리형 서비스 (managed service)의 형태를 띠게 될 것입니다.

중간 계층이 스택을 잠식하는 이유

여기서 제가 과소평가되고 있다고 생각하는 부분이 있습니다. 3계층 아키텍처에서 중간 계층은 구조적으로 가장 전략적인 위치이며, 독립 개발자와 스타트업들이 가장 주목해야 할 지점입니다.

1. 중간 계층은 락인 (lock-in)이 사라지는 곳입니다

현재 AI 개발에서 가장 큰 숨겨진 세금은 **전환 비용 (switching cost)**입니다. 새로운 모델을 다시 통합하는 데는 일주일이 걸립니다. 다섯 개의 새로운 모델을 다시 통합하는 데는 한 분기가 걸립니다. 대부분의 팀은 그냥 그렇게 하지 않으며, 그 결과 영원히 과도한 비용을 지불합니다.

애그리게이터 (aggregator)는 인터페이스를 표준화합니다. 일단 애그리게이터를 사용하게 되면, GPT-4o에서 DeepSeek V3로 전환하는 것은 단거리 경주 (sprint)가 아니라 단순한 문자열 변경 (string change) 수준의 일이 됩니다.

2. 중간 계층은 경제 논리가 작동하는 곳입니다

공급자 (Producers)는 자신들의 최고 고객, 즉 일반적으로 예측 가능하고 대량의 약정을 하는 대기업을 대상으로 가격을 책정합니다. 개인 개발자와 소규모 스타트업은 일반 요금 (rack rate)을 지불합니다. 애그리게이터는 이 둘 사이에 위치합니다. 이들은 공급자와 대량 구매 요율을 협상하고, 이를 작은 단위로 쪼개어 롱테일 (long-tail) 개발자들에게 재판매합니다. 이러한 차익 거래 (arbitrage)가 중간에 있는 모든 이들에게 자금을 공급합니다.

이것이 바로 AWS가 존재하는 정확한 이유입니다. EC2가 자체 서버를 운영하는 것보다 저렴한 이유는 Amazon이 더 저렴한 전기를 사용하기 때문이 아닙니다. Amazon이 산업 규모로 전기를 구매하여 당신에게 아주 작은 단위로 판매하기 때문에 저렴한 것입니다.

3. 중간 계층은 신뢰성 (reliability)이 존재하는 곳입니다

어떤 단일 생산자도 100%의 업타임 (uptime)을 보장할 수는 없습니다. 용량 부족 (capacity squeeze) 상황에서의 Anthropic을 경험했거나, 출시 당일의 OpenAI를 경험해 본 사람이라면 누구나 이를 뼈저리게 알고 있습니다. 유일하고 지속 가능한 해답은 멀티 프로바이더 페일오버 (multi-provider failover)이며, 페일오버를 수행할 통합 인터페이스가 없다면 멀티 프로바이더 페일오버를 구현할 수 없습니다. 그것이 바로 중간 계층 (middle layer)입니다.

4. 중간 계층은 새로운 지리적 영역이 열리는 곳입니다

현재 AI 분야에서 가장 과소평가된 이야기는 가성비 (price-performance)의 경계선이 이동했다는 사실입니다. 많은 실제 작업의 품질 기준을 충족하는 가장 저렴한 토큰은 더 이상 캘리포니아에서 만들어지지 않습니다. 그것은 항저우와 베이징에서 만들어집니다. DeepSeek V3는 출력 토큰 (output tokens) 기준으로 GPT-4o보다 약 30배 저렴하며, 코딩 및 추론 (reasoning) 작업의 상당 부분에서 GPT-4o와 대등하거나 이를 능가합니다. Qwen 2.5는 많은 기업용 유스케이스 (use cases)에서 Claude와 진정으로 경쟁할 만한 수준입니다. GLM-4는 구조화된 추출 (structured extraction)에 완벽한 매우 저렴한 "Flash" 티어를 제공합니다.

대부분의 비중국권 개발자들은 이러한 모델들을 사용해 본 적이 없습니다. 모델이 열등해서가 아니라 — 실제로 그렇지 않은 경우가 많습니다 — 접근 경로가 어렵기 때문입니다. 해외 신용카드가 항상 작동하는 것은 아니며, 고객 확인 절차 (KYC)는 외국어로 되어 있고, 결제 한도는 제한적이며, 적절한 라우팅 (routing) 없이는 아시아 외부에서의 지역적 지연 시간 (latency)이 매우 가혹할 수 있습니다.

이것은 구조적으로 애그리게이터 (aggregator)의 문제입니다. 모두를 위해 이 문제를 한 번에 해결하십시오.

5. 중간 계층은 결국 표준 (standards)이 자리 잡을 곳입니다

최근 인프라 컨퍼런스에서 일관되게 지적되는 점 중 하나는 AI 산업에 **표준의 격차 (standards gap)**가 존재한다는 것입니다. 모델이 세상에 자신을 어떻게 노출해야 하는지에 대한 TCP/IP, POSIX, 또는 OpenAPI와 같은 대응 표준이 없습니다. 우리는 표준화 이전 시대 (pre-standardization era)에 있으며, 바로 이때가 미들웨어 (middleware) 기업들이 사실상의 표준 (de facto standards)을 만들어내는 시기입니다.

OpenAI가 발명하고, 이미 존재하고 있었기에 다른 모든 이들이 채택한 Chat Completions 스키마 (schema)가 첫 번째 표준입니다. 앞으로 더 많은 표준이 등장할 것입니다. 이들은 거의 확실하게 애그리게이터 계층 (aggregator layer)에서 나타날 것인데, 표준화에 대한 압박이 가장 높은 곳이 바로 그곳이기 때문입니다.

실제 프로덕션급 미들 레이어 (Middle Layer)의 모습

애그리게이터를 사용해 본 적이 없다면, 실제로 작업할 때 어떤 느낌인지 다음과 같습니다.

from openai import OpenAI

# 하나의 API 키. 모든 모델.
...

동일한 SDK. 동일한 요청 형태 (request shape). 동일한 결제 지갑 (billing wallet). 동일한 관측성 (observability). 새로운 인증, 새로운 에러 핸들링 (error handling), 새로운 속도 제한 (rate-limit) 로직이 필요 없습니다.

그것이 핵심입니다. 미들 레이어 (middle layer)의 역할은 존재감을 지우는 것입니다.

Haotokai의 위치

여기서 저는 투명하게 밝혀야 할 부분이 있습니다. Haotokai는 레이어-2 애그리게이터 (Layer-2 aggregator)이며, 제가 작업하고 있는 제품입니다. 우리가 이를 구축한 이유는 바로 이 글의 논지와 정확히 일치합니다. 미들 레이어는 대부분의 개발자가 실제로 고통을 겪는 지점이며, 중국 모델 생태계에 깔끔하게 접근하고자 하는 중국 외 지역의 개발자들에게는 마땅한 옵션이 없었기 때문입니다.

구체적으로, Haotokai는 다음과 같은 기능을 제공합니다:

DeepSeek (V3, R1), Qwen 2.5, GLM-4, Kimi (Moonshot), Spark (iFlytek) 등을 아우르는 하나의 OpenAI 호환 엔드포인트 (endpoint)
원천 제공업체를 반영한 가격 책정: 따라서 저렴한 중국 모델들은 저렴한 상태를 유지하며, 일반적으로 GPT-4o급 가격보다 60~90% 낮습니다.
PayPal, 카드 및 암호화폐 결제: 중국 토큰을 사용하기 위해 중국 은행 계좌가 필요하지 않습니다.
단일 대시보드, 단일 지갑, 단일 인보이스 (invoice): 여러 제공업체에 걸쳐 지출하는 모든 비용을 통합 관리합니다.
OpenAI SDK 및 그 기반으로 구축된 모든 도구와의 즉시 호환성 (Drop-in compatibility): (LangChain, LlamaIndex, Vercel AI SDK 등)
$20의 무료 크레딧: 결제하기 전에 모든 모델을 나란히 놓고 비교해 볼 수 있습니다.

이미 멀티 모델 (multi-model) 설정을 운영 중이라면, Haotokai는 복잡한 통합 과정을 하나로 통합해 줍니다. 만약 미국 연구소(US labs) 외부의 가성비 경계(price-performance frontier)가 궁금한 단일 모델 사용자라면, 이것이 아마도 가장 마찰이 적은 실험 방법일 것입니다.

솔직한 반론들

명백한 반대 의견들을 다루지 않는다면 여러분의 시간을 낭비하는 것이 될 것입니다.

"애그리게이터(Aggregators)는 그저 수수료를 챙기는 중간 관리자일 뿐이다."
수학적으로는 맞습니다. 마진(markup)이 존재합니다. 하지만 실질적으로 그 마진은 작으며(보통 5~15%), 더 저렴한 모델로 라우팅(routing)함으로써 얻는 비용 절감 효과에 비하면 미미한 수준입니다. 만약 트래픽의 70%를 10배 더 저렴한 모델로 전환하여 전체 청구 금액을 65% 절감할 수 있다면, 10%의 미들웨어(middleware) 수수료는 오차 범위 내의 수준입니다.

"또 다른 장애 지점(point of failure)이 생기는 것이 걱정된다."
합리적인 우려입니다. 하지만 실제로 잘 운영되는 애그리게이터는 공급자(producers) 간에 자동으로 장애 조치(failover)를 수행할 수 있기 때문에 신뢰성을 _향상_시킵니다. 단일 공급자 설정에는 대체 수단(fallback)이 없지만, 애그리게이터 뒤에 있는 멀티 공급자 설정에는 여러 개의 대체 수단이 있습니다.

"데이터 프라이버시는 어떻게 되는가?"
프롬프트(prompts)를 기록하지 않고 사용자의 데이터로 학습하지 않는 애그리게이터를 선택한다면, 프라이버시 보안 태세는 직접 이용하는 것과 본질적으로 동일합니다. 전용 컴플라이언스(compliance, 예: HIPAA, SOC 2, 지역 데이터 레지던시)가 필요한 워크로드의 경우, 해당 인증을 제공하는 공급자를 계속 이용하십시오. 그 외의 모든 경우에는 애그리게이터를 사용해도 괜찮습니다.