AI 기술의 진짜 병목 현상은 칩이 아니라 조정(Coordination)이다

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 20일

대부분의 AI 기술 워크플로우(workflows)는 완전히 잘못된 문제를 해결하고 있습니다.

이 글을 마칠 때쯤이면, 여러분은 왜 벤치마크(benchmark) 전쟁이 현대 AI 기술의 실제 실패 계층으로부터 주의를 분산시키는지, 그리고 제가 _AI 조정 격차 (The AI Coordination Gap)_라고 부르는 문제를 어떻게 우회하여 설계(engineer)할 수 있는지 이해하게 될 것입니다.

Server rack of CPUs and GPUs with overlaid AI agent coordination diagram showing data flow bottlenecks

개요: Bloomberg가 실제로 보고한 내용

지난 3년 중 대부분의 기간 동안, AI 학습(training) 및 추론(inference) 분야에서 Nvidia의 거의 완전한 독점은 벤치마크 논쟁을 거의 무의미하게 만들었습니다. 한 벤더가 가속기 스택(accelerator stack) — 즉, GPU, CUDA 소프트웨어 해자(moat), 상호 연결(interconnects) — 을 소유하고 있을 때는 마케팅할 가치가 있는 경쟁 자체가 존재하지 않습니다. 비교 대상이 없을 때는 비교 광고를 하지 않기 때문입니다. Nvidia의 데이터 센터 부문은 전체 AI 경제의 중력 중심이 되었고, Intel과 AMD가 한때 번창했던 벤치마크 극장은 조용해졌습니다.

Bloomberg가 지적하고 있는 것은 구조적인 역전입니다. 추론 워크로드(Inference workloads)가 다양해지고 있습니다. 비용 문제로 인해 더 많은 AI가 CPU에서 실행됩니다. 에이전트 시스템(Agentic systems)은 값비싼 GPU 클러스터를 정당화하지 못하는, 가볍지만 빈번한 추론 호출(reasoning calls)을 밀어붙입니다. CPU가 다시 중요해지는 순간, 모든 칩 제조사의 마케팅 부서는 동일한 무기인 벤치마크를 집어 듭니다. Reuters의 기술 데스크에서 다룬 더 넓은 거시적 맥락을 보면, 이제 추론이 배포된 AI의 지배적인 컴퓨팅 비용으로서 학습을 앞지르고 있음을 보여줍니다.

실리콘 산업(silicon industry) 입장에서는 진정으로 흥미로운 소식입니다. 하지만 시니어 엔지니어와 AI 리드들에게 이것은 거울과 같습니다. 벤치마크 전쟁은 업계 전체가 반복하고 있는 더 깊은 실수를 완벽하게 보여주는 사례이기 때문입니다: 우리는 실제로 병목이 발생하는 계층(layer)이 아니라, 측정하기 가장 쉬운 계층을 최적화하고 있습니다.

83%
각 단계의 신뢰도가 97%인 6단계 파이프라인(pipeline)의 엔드투엔드(End-to-end) 신뢰도
[arXiv, 2023](https://arxiv.org/abs/2308.00352)
...

CPU가 다시 흥미로워지면서 칩 벤치마크 전쟁이 재점화되었습니다. 하지만 벤치마크의 소수점 자리에 집착하는 것은 AI 팀들이 매일 저지르는 실수와 동일한 실리콘 산업 버전의 오류입니다: 조정 계층(coordination layer)이 조용히 실패하고 있는 동안, 측정 가능한 계층만을 최적화하는 것입니다.

개념 설명: 비전문가를 위한 벤치마크 전쟁 해설

벤치마크(benchmark)란 특정 하드웨어가 특정 작업을 얼마나 빨리 완료하는지를 측정하는 표준화된 테스트입니다. 자동차의 제로백(0-to-60) 시간이 성능에 대해 무언가를 알려주지만, 그것이 성능의 전부는 아닌 것과 같습니다. 컴퓨팅 분야에서 벤치마크는 초당 부동 소수점 연산(floating-point operations per second), 메모리 대역폭(memory bandwidth), 또는 칩이 알려진 AI 모델을 얼마나 빠르게 실행하는지 등을 측정합니다.

수십 년 동안 Intel과 AMD 같은 칩 제조사들은 이러한 수치를 두고 홍보 전쟁을 벌여왔습니다. 모든 제품 출시에는 선정된 벤치마크에서 자사 칩이 경쟁사보다 몇 퍼센트 더 우세하다는 것을 보여주는 차트가 포함되었습니다. 함정은 이것입니다: 각 회사는 자신들에게 가장 유리하게 작용하는 벤치마크를 직접 선택한다는 점입니다. 이것이 Bloomberg가 언급한 "PR 싸움"입니다. 과학의 탈을 쓴 마케팅인 셈입니다. MLCommons의 MLPerf 제품군과 같은 표준화 기구들이 존재하는 이유도 바로 이러한 선별(curation) 문제를 해결하기 위함입니다.

Nvidia의 GPU가 대규모 AI 모델을 학습시키고 실행하기 위한 필수적인 도구가 되었을 때, 이 전쟁은 조용해졌습니다. 한 회사가 분야를 지배하고 있을 때는 벤치마크(benchmark)를 두고 논쟁하는 것이 무의미했기 때문입니다. Nvidia의 CUDA 소프트웨어 생태계 (CUDA software ecosystem)는 개발자들을 종속시켰고, 경쟁사들은 이를 쉽게 도전할 수 없었습니다. 그러다 모든 컴퓨터에 들어가는 범용 칩인 CPU가 AI 추론 (inference)과 에이전트(agent)가 수행하는 더 가볍고 빈번한 추론 (reasoning) 단계에서 다시 수요가 생겨났습니다. 이는 정면 승부식 비교를 부활시켰으며, 그와 함께 벤치마크 연극 (benchmark theater)도 다시 시작되었습니다.

정립된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (AI Coordination Gap)란 개별 AI 구성 요소(모델, 칩, 도구)가 고립된 상태에서 얼마나 잘 작동하는지와, 이들이 실제 워크플로 (workflow)에서 사슬처럼 연결되었을 때 얼마나 신뢰성 있게 작동하는지 사이의 벌어지는 간극을 의미합니다. 이는 벤치마크 문화가 우리로 하여금 무시하도록 훈련시키는 시스템적 문제를 지칭합니다. 즉, 우리는 부품을 측정하지만, 가치는 연결 부위 (joints)에서 파괴됩니다.

Before and after diagram contrasting component-level benchmarks versus end-to-end AI workflow reliability measurement

벤치마크 사고방식은 각 구성 요소를 고립시켜 측정합니다. AI 조정 격차는 이러한 구성 요소들이 사슬처럼 연결될 때, 즉 벤치마크가 침묵하는 바로 그 지점에서 나타납니다.

작동 원리: 실리콘 벤치마크에서 조정 실패까지

칩 벤치마크 전쟁과 여러분의 AI 스택 (stack)을 연결하는 메커니즘은 곱셈입니다. 벤치마크는 우리 머릿속에서 가산적 (additive)으로 느껴지기 때문에 매혹적입니다. 우리는 5% 더 빠른 칩, 3% 더 나은 모델, 2% 더 똑똑한 프롬프트 (prompt)가 더해지면 대략 10%의 개선을 가져다줄 것이라고 가정합니다. 하지만 그렇지 않습니다. 연결된 시스템에서의 신뢰성은 곱셈적 (multiplicative)이며, 바로 그 지점에서 모든 것이 무너집니다.

실제 에이전트 파이프라인 (agentic pipeline)을 생각해 보십시오. 요청이 들어오면, 에이전트가 벡터 데이터베이스 (vector database)에서 컨텍스트 (context)를 검색하고, 도구 (tool)를 호출하며, 그 결과를 두 번째 에이전트에게 전달하면, 해당 에이전트가 답변을 형식에 맞춰 반환합니다. 이러한 각 단계는 개별적으로는 97%의 신뢰도를 가질 수 있으며, 이는 벤치마크 (benchmark) 수준입니다. 하지만 6개의 단계가 사슬처럼 연결되면 수학적 결과는 가혹합니다. 0.97의 6제곱은 약 0.83입니다. 당신은 6개의 훌륭한 컴포넌트 (component)를 출시했지만, 신뢰도가 83%인 제품을 만든 것입니다. 요청 6개 중 1개는 실패하거나 품질이 저하됩니다. 컴포넌트 수준의 벤치마크는 모든 것이 괜찮다고 말해주었을 것입니다. 저는 팀들이 모델 선택 (model selection)을 최적화하는 데 3개월을 허비하면서도 정작 이 문제는 완전히 놓치는 것을 보아왔습니다. 그런 팀이 되지 마십시오.

에이전트 파이프라인에서 조정 격차 (Coordination Gap)가 심화되는 방식

  1

    **추론 계층 (Inference Layer) (CPU/GPU)**

칩 (chip)이 모델을 실행합니다. 집요하게 벤치마크를 수행하며, 이곳이 바로 PR 전쟁이 벌어지는 곳입니다. 이곳의 신뢰도는 ~99% 이상이며, 지연 시간 (latency)은 밀리초 (ms) 단위로 측정됩니다. 이것은 당신의 문제가 아닙니다.

&darr;

  2
...

Pinecone 또는 유사한 서비스가 컨텍스트를 반환합니다. 검색 정밀도 (retrieval precision)가 100%인 경우는 드뭅니다. 오래되었거나 관련 없는 청크 (chunk)는 다운스트림 (downstream)의 모든 것을 조용히 오염시킵니다. 어떤 벤치마크도 이를 잡아내지 못합니다.

&darr;

  3
...

에이전트가 모델 컨텍스트 프로토콜 (Model Context Protocol)을 통해 외부 도구를 호출합니다. 스키마 불일치 (schema mismatch), 타임아웃 (timeout), 잘못된 형식의 인자 (malformed arguments)는 실세계에서 발생하는 가장 흔한 실패 모드 (failure mode)이며, 이는 칩 벤치마크에서는 보이지 않습니다.

&darr;

  4
...

에이전트 A의 출력이 에이전트 B의 입력이 됩니다. 컨텍스트 절단 (context truncation), 형식 드리프트 (format drift), 상태 유실 (lost state)이 여기서 누적됩니다. 이것이 조정 격차 (Coordination Gap)의 핵심입니다.

&darr;

  5
...

상태 머신 (state machine)이 재시도 (retries), 폴백 (fallbacks), 라우팅 (routing)을 제어합니다. 이것이 곱절로 손실된 신뢰도를 회복할 수 있는 유일한 (ONLY) 계층이며, 대부분의 팀은 이를 건너뜁니다.

칩 벤치마크 전쟁은 계층 1에 집착합니다. 하지만 프로덕션 신뢰도는 공개된 벤치마크가 존재하지 않는 계층 2~5에서 결정됩니다.

각 단계의 신뢰도가 97%인 6단계 파이프라인(pipeline)은 엔드 투 엔드(end-to-end)로 전달될 때 83%의 신뢰도를 보입니다. 각 단계를 99.5%까지 끌어올리면 엔드 투 엔드 신뢰도는 97%에 도달합니다. 이득은 결코 칩 벤치마크에서 나오지 않습니다. 그것은 조정(coordination) 접점(joints)을 97%에서 99.5%로 짜내는 과정에서 나옵니다.

사람들이 AI 성능에 대해 가장 잘못 알고 있는 것

칩 벤치마크 전쟁이 의도치 않게 증명하고 있는 직관에 반하는 주장은 다음과 같습니다: AI 기술로 승리하는 기업은 가장 빠른 하드웨어나 가장 똑똑한 모델을 가진 기업이 아니라, 조정을 해결한 기업입니다.

대부분의 기업 AI 워룸(war room)에 들어가 보면, 어떤 모델이 MMLU에서 1위를 하는지, 어떤 칩이 더 나은 초당 토큰 수(tokens-per-second)를 기록하는지, 어떤 임베딩(embedding) 모델이 MTEB 리더보드를 선도하는지에 대한 논쟁을 듣게 될 것입니다. 이것은 AI 팀 버전의 칩 벤치마크 논쟁과 같습니다. 이는 엄격해 보이고, 측정 가능해 보입니다. 하지만 프로젝트가 프로덕션(production) 환경에서 실패하는 원인이 되는 경우는 거의 없습니다.

AI 프로젝트가 실패하는 이유에 대한 RAND의 2024년 분석에 따르면, 주요 원인은 모델의 역량이 아니라 조직, 통합, 그리고 데이터 파이프라인(data-pipeline)의 실패인 것으로 나타났습니다. 모델은 충분히 훌륭했습니다. 하지만 그 주변의 시스템이 조정되지 않았습니다. 이것이 현장 데이터에서 나타나는 'AI 조정 격차(AI Coordination Gap)'입니다. 이론이 아닙니다. 실제 사후 분석(postmortems) 결과입니다. McKinsey의 State of AI 조사에서도 동일한 패턴이 나타납니다: 파일럿(pilot) 단계를 넘어 확장(scaling)하는 것은 모델의 문제가 아니라 통합의 문제입니다.

'전체 문맥(context)을 보존하며 에이전트 간에 인계(hand-offs)되는 비율'에 대한 벤치마크를 발표하는 사람은 아무도 없습니다. 바로 그 지점이 당신의 제품이 신뢰도를 잃고 있는 곳입니다.

최근 다시 불붙은 CPU 벤치마크 전쟁은 엔지니어들을 다시 구성 요소 최적화(component optimization)라는 편안하고 측정 가능한 게임으로 유혹한다는 점에서 유용한 도발입니다. 정작 업계의 가장 어렵고 해결되지 않은 문제는 바로 그보다 한 단계 높은 추상화 계층(abstraction layer)에 존재하는데 말입니다. 구성 요소에 대한 입문서가 필요하다면, AI 에이전트 설명(AI agents explained) 개요를 참조하십시오.

소규모 기업에 미치는 의미

만약 여러분이 소규모 기업을 운영하고 있다면, 칩 벤치마크 전쟁은 대부분 무의미한 소음일 뿐입니다. 이는 사실 좋은 소식입니다. 여러분에게 가장 빠른 실리콘(silicon)이 필요한 것은 아니기 때문입니다. CPU 경쟁의 재점화는 여러분에게 도움이 됩니다. CPU 친화적인 추론 (inference)이 가능해진다는 것은, 비싼 GPU 클러스터를 대여하지 않고도 더 저렴하고 단순하게 AI 기술을 배포할 수 있음을 의미하기 때문입니다.

기회는 실재합니다. 이제 소규모 기업도 범용 CPU 인프라나 저렴한 추론 API를 통해 고객 지원 분류 (customer support triage), 송장 추출 (invoice extraction), 잠재 고객 자격 검증 (lead qualification)과 같은 유능한 AI 워크플로우 (workflow)를 실행할 수 있습니다. 잘 조정된 에이전트 워크플로우 (agent workflow)는 반복적인 지식 노동을 수행하는 파트타임 계약직을 대체할 수 있으며, 역할에 따라 연간 30,000달러에서 80,000달러를 절감할 수 있습니다.

하지만 위험 요소는 소규모 규모에서 더 뼈아프게 다가옵니다. 여러분에게는 조용한 실패 (silent failures)를 잡아낼 SRE (Site Reliability Engineering) 팀이 없습니다. 만약 송장 추출 에이전트가 4단계 과정에서 각 단계당 95%의 신뢰도를 가진다면, 엔드 투 엔드 (end-to-end) 신뢰도는 약 81%가 됩니다. 즉, 송장 5개 중 1개 정도는 잘못 처리된다는 뜻입니다. 이것은 벤치마크의 문제가 아닙니다. 이것은 조정 (coordination)의 문제이며, 여러분이 인지하기도 전에 고객의 신뢰를 조용히 무너뜨립니다.

구체적인 예시를 들어보겠습니다. 12명 규모의 이커머스 업체가 반품 자동화 에이전트를 구축합니다. 각 단계(이메일 분류, 주문 조회, 정책 확인, 답변 초안 작성)는 개별적으로 테스트했을 때는 훌륭하게 작동합니다. 하지만 실제 운영 환경에서는 주문 조회 도구가 가끔 타임아웃 (timeout)이 발생하고, 에이전트는 재시도를 하지 않으며, 고객은 엉망인 답변을 받게 됩니다. 해결책은 더 빠른 칩이나 더 나은 모델이 아닙니다. 재시도 (retries)와 폴백 (fallbacks) 기능이 포함된 오케스트레이션 계층 (orchestration layer)을 구축하는 것입니다. 이에 대한 더 자세한 내용은 소규모 팀을 위한 워크플로우 자동화 (workflow automation) 가이드와 소규모 기업을 위한 AI (AI for small business) 분석 내용을 참조하십시오.

Small business owner reviewing an AI agent dashboard showing retry logic and coordination metrics on a laptop

소규모 기업들에게 승리란 더 빠른 실리콘 (silicon)이 아닙니다. 그것은 벤치마크가 결코 측정하지 못하는 침묵의 조정 실패 (coordination failures)를 포착하는 오케스트레이션 레이어 (orchestration layer)입니다.

주요 사용자

새롭게 변화하는 CPU 벤치마크 역학 — 그리고 실제로 중요한 조정 (coordination)의 관점 — 은 각기 다른 역할에 따라 다르게 작용합니다: