데이터 센터 CPU 수요 급증과 AI 에이전트의 역할 – 하이퍼스케일러에게 CPU 대 GPU 비율이 그 어느 때보다 중요한 이유 - Insights | Molayo

A close-up view of Nvidia's Vera CPU Compute Tray

멈출 기미가 보이지 않는 AI 혁명은 때때로 골드러시의 메아리를 떠올리게 합니다. 새로운 희귀 원자재에 대한 소문이 커뮤니티를 통해 빠르게 퍼지고, 사람들이 자원을 선점하면서 갑작스러운 관심의 급증이 일어납니다. ChatGPT 시대의 대부분 동안, 여러분은 GPU를 구하기 위해 엄청난 노력을 기울여야 했습니다. 수요가 너무나 막대하여 Nvidia가 사실상 자체 대기 명단을 관리할 수 있을 정도였기 때문입니다.

대부분의 미디어의 관심과 수많은 투자는 가능한 한 많은 GPU를 확보하려는 경쟁에 집중되어 왔으며, 가장 최근에는 메모리(Memory)가 초점이 되었습니다.

하지만 최근 몇 주와 몇 달 동안, 이에 걸맞은 CPU를 확보하는 데 초점이 맞춰지고 있습니다. 수십 년 동안 CPU는 운영 체제(OS)를 실행하고, 워크로드(Workload)를 스케줄링하며, 모든 것이 원활하게 돌아가도록 유지하는 하드웨어 스택의 익명의 일꾼 역할을 해왔습니다. 공급 부족이 발생하거나 성능의 세대적 도약이 있지 않는 한 헤드라인을 장식하는 일은 거의 없었습니다.

그런데 갑자기, CPU가 금만큼이나 희귀한 GPU와 같은 맥락에서 거론되고 있습니다. 무슨 일이 일어나고 있는 걸까요?

Hitachi Vantara의 유럽, 중동 및 아프리카 지역 최고 기술 책임자(CTO)인 Jason Beckett은 Tom’s Hardware Premium과의 인터뷰에서 “대규모 AI 배포로 인해 조직들이 열풍 이면에 있는 인프라를 살펴보게 되었다”라고 말했습니다. Beckett이 지적했듯이, 대부분의 관심이 AI 모델을 실행하는 GPU에 집중되어 있는 반면, CPU는 “그 외의 모든 것”을 처리하기 때문에 필수적입니다.

그리고 에이전트형 AI(Agentic AI)가 표준이 됨에 따라, 모든 것을 제대로 작동하게 유지하기 위한 CPU 백본(Backbone)에 대한 필요성이 더욱 커지고 있습니다. Beckett은 “항상 켜져 있는(Always-on) 다단계 추론 시스템은 GPU 워크로드 주변에서 짧은 오케스트레이션(Orchestration) 폭발을 일으키는 데 그치지 않는다”라고 말했습니다. “이들은 지속적인 부하에서 계속 실행되는 고코어 수(High-core-count) CPU를 요구합니다. 인프라 요구 사항은 항상 구조적이었지만, 이제는 피할 수 없는 것이 되었습니다.”

비율의 재조정

이전 생성형 AI (Generative AI) 혁명 초기 단계에서 AI 학습 (Training) 및 추론 (Inference)을 제공하기 위해 데이터 센터를 설계할 때는, 이를 구축하는 이들이 GPU에 압도적으로 치우친 설계를 반영했습니다. 챗봇 대화는 단일 CPU당 4개에서 8개의 GPU를 필요로 했는데, 이는 사용자 요청을 처리하는 데 필요한 병렬 방정식들이 GPU 추론 (GPU-inference)에 크게 의존했기 때문입니다.

하지만 AI의 주요 사용 사례가 챗봇에서 에이전트 (Agents)로 변화함에 따라 요구 사항 또한 바뀌었습니다. AI 모델이 '생각'하는 동안 발생하는 약간의 심층 추론 (In-depth inference) 지연은 수용 가능한 인터페이스 선택으로 간주되었습니다. 그러나 에이전트형 AI (Agentic AI)는 신속한 응답과 도구 호출 (Tool calls) 및 그 이상의 매끄러운 조율을 필요로 하므로, 지연 시간 (Latency)은 치명적일 수 있습니다. CPU 수를 늘리는 것은 전체 에이전트 스택 (Agentic stack)을 망가뜨릴 수 있는 심각한 문제로 빠르게 번질 수 있는 모든 상황을 방지하는 데 도움이 될 수 있습니다.

주요 CPU 제조업체 중 하나인 AMD는 이러한 변화를 직접 목격했습니다. 이 회사는 이전에 CPU 시장이 연간 약 18%의 비율로 성장할 것이라고 예측했으나, 요구 사항의 변화가 시장을 실질적으로 변화시켰다고 말합니다. AMD의 주장에 따르면 성장률은 이제 연간 35%로 두 배 증가했으며, 2020년대 말에는 1,200억 달러 규모의 시장이 될 것입니다.

"AMD와 Arm의 결과가 우리에게 말해주는 것은 이것이 주기적인 (Cyclical) 요구 사항이 아니라 구조적인 (Structural) 요구 사항이라는 점입니다."라고 PEAK:AIO의 CEO인 Roger Cummings가 Tom’s Hardware Premium과의 인터뷰에서 밝혔습니다. "실제로 두 가지 구조적 변화가 수요 급증을 주도하고 있습니다: 바로 에이전트형 AI (Agentic AI)의 부상과 랙 규모 (Rack scale)에서의 결정론적이고 예측 가능한 성능에 대한 필요성입니다."

그러한 CPU 수요의 상당 부분은 하이퍼스케일러 (Hyperscalers)에 의해 주도되고 있으며, 이들은 향후 수년간 경제를 움직일 가능성이 높은 AI 클러스터 (AI clusters)를 개발하는 데 있어 CPU가 수행하는 필수적인 역할을 인식하고 있습니다. AI 및 고성능 컴퓨팅 (HPC) 인프라를 위한 차세대 액체 냉각 (Liquid cooling) 솔루션 전문 기업인 Aegis Cooling의 전략적 파트너십 부사장 Jeff Moore는 Tom’s Hardware Premium과의 인터뷰에서 “GPU 클러스터가 확장됨에 따라, CPU는 오케스트레이션 (Orchestration), 메모리 관리 (Memory management), 네트워킹 (Networking), 스토리지 조정 (Storage coordination) 및 추론 처리 (Inference handling)에서 더 큰 역할을 맡고 있습니다”라고 말했습니다.

Moore는 AI 배포 내에서 CPU 대 GPU 비율이 상승하고 있다고 언급하며, “특히 분산형 AI 워크로드 (Distributed AI workloads)가 범용 컴퓨팅 (General-purpose compute), 메모리 대역폭 (Memory bandwidth), 그리고 동서 방향 데이터 이동 (East-west data movement)에 대해 상당한 수요를 생성하기 때문입니다”라고 설명했습니다. 최근 TrendForce의 분석에 따르면, 응답 지연의 거의 91%를 차지하는 CPU의 지연 시간 (Latency) 기여도는 AI 배포가 필사적으로 상쇄하려고 노력하는 요소 중 하나입니다.

설계의 변화

이러한 변화는 이제 재무 전망뿐만 아니라 AI 인프라 자체의 물리적 설계에서도 눈에 띄게 나타나고 있습니다. 초기 생성형 AI (Generative AI) 배포 단계에서는 랙 (Racks)이 주로 밀집된 GPU 구성 중심으로 구축되었으며, CPU는 시스템을 구동하기에 충분한 수준의 지원 구성 요소로 취급되었을 뿐 병목 현상 (Bottleneck)에 대한 우려 대상은 아니었습니다. 하지만 이제 상황이 바뀌고 있습니다. 15년 이상의 경험을 가진 PCB 제조업체 OurPCB의 설립자 Hommer Zhao는 Tom’s Hardware Premium에 전한 코멘트에서 “미디어에서는 AI 랙을 거대한 GPU 박스로 묘사하곤 합니다”라며, “하지만 하드웨어 설계 관점에서 보면, GPU는 그저 매우 빠르지만 매우 단순한 엔진일 뿐입니다. GPU는 인터넷과 통신하거나 하드 드라이브에서 데이터를 가져올 수 없습니다”라고 말했습니다.

하이퍼스케일러들은 여러 개의 GPU와 느슨하게 결합된 단일 호스트 CPU를 사용하는 대신, 데이터 이동 수요에 발맞추기 위해 더 높은 코어 수 (Core-count)를 가진 CPU, 더 많은 메모리 채널 (Memory channels), 그리고 어떤 경우에는 노드 (Node)당 여러 개의 CPU를 사용하는 구성을 배포하고 있습니다.

랙 (Rack) 구성 방식에는 열 관리 (Thermal) 및 전력 (Power) 고려 사항도 영향을 미칩니다. 특히 클라우드 워크로드 (Cloud workloads)에 최적화된 고코어 수 CPU (High-core-count CPUs)는 단순히 순수 성능뿐만 아니라 지속적인 부하 상황에서의 효율성을 기준으로 선택되고 있습니다. 액체 냉각 (Liquid-cooled) 환경에서 CPU는 공기로 별도 냉각되는 부수적인 요소가 아니라, 점점 더 GPU와 동일한 열 설계 전력 (Thermal design envelope)의 일부로 통합되고 있습니다.

성공의 재무적 신호

AMD와 Arm의 최근 실적은 이것이 단기적인 조정이 아니라 더 깊은 아키텍처적 변화임을 뒷받침합니다. AMD는 데이터 센터 CPU 부문에서 강력한 성장을 보고했는데, 이는 AI 오케스트레이션 (AI orchestration) 작업에 적합한 높은 코어 수와 메모리 대역폭 (Memory bandwidth)을 제공하는 EPYC 프로세서에 대한 하이퍼스케일러 (Hyperscaler)의 수요에 크게 기인합니다.

한편, Arm은 하이퍼스케일러들이 자체 맞춤형 실리콘 (Custom silicon)을 설계함으로써 이익을 얻고 있습니다. Beckett은 "Arm은 2025년 주요 하이퍼스케일러에 출하된 모든 컴퓨팅의 거의 절반을 차지하며, 10억 개 이상의 Neoverse 코어가 배포되었습니다"라고 말했습니다. "이는 수년 전에 내려진 랙 수준의 아키텍처 결정입니다." AWS의 Graviton, Google의 Axion, 그리고 Microsoft의 Cobalt 칩은 모두 특정 워크로드에 맞춤화된 CPU 아키텍처, 즉 높은 처리량 (High-throughput), 에너지 효율성, 그리고 네트워킹 및 스토리지와의 긴밀한 통합을 향한 움직임을 반영합니다. Arm의 라이선스 모델은 이러한 트렌드의 중심에 위치하며, 최근의 재무 결과는 하이퍼스케일러 주도의 수요가 얼마나 중요해졌는지를 강조합니다.

두 기업의 실적 모두 CPU가 가치 평가되는 방식의 변화를 가리키고 있습니다. 전통적인 엔터프라이즈 (Enterprise) 환경에서 하드웨어는 종종 범용적 (General-purpose)이며 교체 가능한 것이었습니다. 하지만 하이퍼스케일러 환경에서 CPU는 오케스트레이션, 엣지에서의 추론 (Inference at the edge), 또는 데이터 전처리 (Data preprocessing) 등 AI 시스템 내의 특정 역할을 위해 조정된 전문화된 인프라 구성 요소가 되어가고 있습니다.

이러한 랙 디자인 (rack design)과 벤더 성능 (vendor performance)의 변화를 종합해 볼 때, CPU는 더 이상 AI 인프라 계획에서 부차적인 고려 사항이 아님을 시사합니다. 대신, CPU는 전체 시스템 효율성 (system efficiency)과 비용을 결정하는 결정적인 요소가 되고 있습니다.

"조명이 새로운 것을 밝혀낸 것은 아닙니다."라고 Beckett은 말했습니다. "그저 진지한 인프라 팀들이 구축을 멈춘 적이 없었던 부분을 마침내 비추고 있을 뿐입니다."

Chris Stokel-Walker는 기술 분야와 그것이 우리의 온·오프라인 일상생활에 미치는 영향에 집중하는 Tom's Hardware 기고자입니다. 그는 2024년에 출간된 How AI Ate the World를 비롯하여 TikTok Boom, YouTubers, 그리고 The History of the Internet in Byte-Sized Chunks의 저자입니다.

데이터 센터 CPU 수요 급증과 AI 에이전트의 역할 – 하이퍼스케일러에게 CPU 대 GPU 비율이 그 어느 때보다 중요한 이유

요약

핵심 포인트

비율의 재조정

설계의 변화

성공의 재무적 신호

댓글