
HPE, 에이전틱 AI (Agentic AI) 파도를 타고 데이터센터로 복귀
요약
HPE는 에이전틱 AI 도입으로 인한 급격한 토큰 비용 상승 문제를 해결하기 위해 온프레미스 기반의 AI 우선 지원 플랫폼을 구축했습니다. Nvidia와 협력한 Private Cloud AI를 활용하여 비용을 30배 절감하며 AI 소비자를 넘어 지능의 생산자로 전환하고 있습니다.
핵심 포인트
- 에이전틱 AI의 지속적인 추론 과정으로 인한 토큰 비용(Tokenomics) 급증
- HPE, 온프레미스 AI 인프라 구축을 통해 월 10만 달러 이상의 비용 절감
- 클라우드 중심에서 온프레미스 및 엣지 데이터센터로의 AI 워크로드 이동 트렌드
- 데이터 주권, 보안, 지연 시간 및 경제성을 고려한 하이브리드 추론 환경의 중요성

HPE, 에이전틱 AI (Agentic AI) 파도를 타고 데이터센터로 복귀
AI 시대 동안 Hewlett Packard Enterprise의 지원 시스템은 매일 고객으로부터 들어오는 수십억 개의 운영 신호 (operational signals)를 정기적으로 처리해 왔으며, 이러한 운영 환경이 더욱 자율화됨에 따라 IT 장비 공급업체인 HPE의 경영진은 해당 시스템이 소비하는 토큰 (tokens)의 수가 신호의 양에 따라 확장되는 것을 지켜보았습니다.
이와 함께 HPE가 지불하는 토큰당 비용 또한 지속적으로 증가했는데, 이는 소위 "토큰노믹스 (tokenomics)"라고 알려진 현상의 결과였습니다.
급격히 상승하는 비용에 대응하여, HPE 엔지니어들은 회사의 GreenLake Intelligence(AI 에이전트 프레임워크)와 Nvidia와 함께 설계된 온프레미스 AI 인프라인 Private Cloud AI를 활용하여 온프레미스(on premises) 기반의 AI 우선 지원 플랫폼을 구축했습니다. HPE의 하이브리드 클라우드 사업부 부사장, 사장 및 총괄 매니저이자 회사의 최고 기술 책임자(CTO)인 Fidelma Russo에 따르면, 자체 인프라에서 AI 워크로드 (workloads)를 실행함으로써 HPE는 작업의 경제성을 제어할 수 있게 되었습니다.
최근 라스베이거스에서 열린 HPE Discovery 2026 행사 기조연설 무대에서 Russo는 "이를 통해 매우 중요한 고객 데이터를 관리할 수 있었고 더 나은 성능을 확보할 수 있었습니다"라고 말했습니다. "또한 대규모로 AI를 운영할 때 발생하는 토큰 지출을 크게 최소화하는 데 도움이 되었습니다. 우리는 AI의 소비자에 머물지 않고 지능의 생산자가 되었습니다."
그 결과, HPE는 비용을 30배 이상 절감하여 매달 거의 100,000달러를 아꼈으며, 이는 회사가 더 빠르게 확장하는 데 필요한 역량을 제공했다고 그녀는 밝혔습니다.
이는 기업들이 AI 워크로드 (AI workloads)를 주로 대형 클라우드에서 실행하던 방식에서 벗어나, 온프레미스 (on-premises)에서 실행되거나 심지어 엣지 (edge)까지 확장되는 AI 데이터센터를 구축하고, 더 많은 하이브리드 추론 (hybrid inferencing) 환경을 조성하는 방향으로 산업이 변화하고 있음을 보여주는 사례입니다. 여기에는 데이터 주권 (data sovereignty) 및 보안, 그리고 지연 시간 (latency)을 포함한 여러 가지 이유가 있습니다. 하지만 그중에서도 핵심적인 이유는 AI 추론 (AI inferencing) 확장과 관련된 비용 상승 및 에이전틱 AI (agentic AI)의 등장입니다.
"에이전트 (agents)가 데이터에 지속적으로 접근하게 되면, 모든 상호작용이 토큰 (token)을 소비하게 됩니다."라고 Russo는 말했습니다. "여기에는 모든 결정, 결정을 검증하는 과정, 그리고 행동을 취하는 과정이 모두 포함됩니다. 전통적인 AI와 달리, 에이전트는 한 번의 응답 후에 멈추지 않습니다. 이들은 지속적으로 추론하고, 지속적으로 조정하며, 다른 시스템과 지속적으로 상호작용합니다. 이는 추론이 일회성 요청이 아니라 지속적인 운영 워크로드 (operational workload)임을 의미합니다. 이는 다시 경제성 문제로 귀결되는데, AI 시스템이 추론하고, 검증하고, 판단하거나 행동을 취할 때마다 토큰을 소비하기 때문입니다."

그녀는 이러한 소비가 비용을 매우 빠르게 누적시킨다고 말했습니다. 단순해 보이는 프롬프트 (prompt) 하나가 수천, 수백만 번의 모델 상호작용으로 이어질 수 있습니다. 예를 들어, 공개 데이터에 따르면 널리 사용되는 가상 개인 AI 에이전트인 OpenClaw는 약 100개의 지속 운영되는 코딩 에이전트 (coding agents)를 지원하기 위해 한 달 동안 6,000억 개 이상의 토큰을 처리했으며, 이는 에이전트당 월 약 13,000달러에 달한다고 Russo는 설명했습니다.
"갑자기 AI 경제학이 인프라 경제학 (infrastructure economics)과 매우 유사해졌습니다."라고 그녀는 말했습니다. "결국 활용도 (utilization), 효율성 (efficiency), 규모 (scale), 그리고 모델뿐만 아니라 전체 시스템을 얼마나 잘 운영하느냐의 문제로 귀결됩니다."

검증 기관인 Signal65에 따르면, 에이전트(agents)는 표준 AI 채팅 상호작용보다 4배에서 15배 더 많은 토큰을 사용할 수 있으며, 에이전틱 워크로드(agentic workloads)가 진화함에 따라 자율 에이전트(autonomous agents)는 추론 AI(reasoning AI)보다 1,000배 더 많은 추론(inference) 수요를 발생시킬 수 있습니다. 이 모든 것은 추론(inferencing) 및 에이전트의 비용을 더욱 높일 것입니다.
NAND Research의 설립자이자 수석 분석가인 Steve McDowell은 “학습(Training)은 클라우드에서 일어날 수 있으며, 그 부분의 이야기는 여전히 대체로 사실입니다”라고 작성했습니다. “하지만 추론(inference)에서는 예상치 못한 일이 일어나고 있습니다. 추론이 온프레미스(on-prem)와 에지(edge)로 다시 이동하고 있으며, 이는 기업용 AI 아키텍처(AI architecture)에 대한 근본적인 재고를 강요하는 조용한 역전 현상입니다. 불과 2년 전까지만 해도 필연적으로 보였던 ‘모든 것을 위한 클라우드(cloud for everything)’ 접근 방식은 실제 운영되는 AI 워크로드(AI workloads)에는 비실용적임이 드러나고 있습니다. IT 조직들은 클라우드 인프라(cloud infrastructure)가 특정 AI 작업에는 뛰어나지만, 추론(inference)은 종종 데이터가 있는 곳과 가까운 곳에서 작동하는 것이 더 낫다는 사실을 발견하고 있습니다.”
이러한 추세는 전통적인 OEM들이 이러한 AI 워크로드(AI workloads)를 온프레미스(on-premises)에서 실행할 수 있는 인프라와, 그 결과로 발생하는 하이브리드 환경(hybrid environments)을 관리할 수 있는 소프트웨어 도구를 만들도록 유도했습니다. 여기에는 HPE뿐만 아니라 Dell Technologies와 Cisco Systems가 Nvidia와 협력하여 구축한 AI 팩토리(AI factories) 형태도 포함됩니다. 지난 5월 Dell Technologies World 2026에서 연설한 경영진들은 자사의 온프레미스 AI 인프라(AI infrastructure) 역량을 확장하려는 노력을 강조했습니다. 설립자이자 최고 경영자(CEO)인 Michael Dell은 AI 워크로드(AI workloads)의 67%가 클라우드 외부에서 실행되며, 설문 조사 대상자의 88%가 자체 데이터센터(datacenter)에서 최소 하나 이상의 AI 워크로드를 실행하고 있다는 회사의 연구 결과를 언급했습니다.
또한 이번 달 초 열린 Cisco Live 2026 쇼에서 Cisco Systems도 유사한 평가를 내놓았으며, 대규모 인프라, 서비스 및 소프트웨어의 장점을 개괄하는 동시에 네트워킹(networking)에 중점을 둔 이니셔티브를 강조했습니다.
앞서 언급했듯이, HPE는 Aruba의 브랜치(branch) 및 캠퍼스 네트워킹(networking) 라인업과 작년 140억 달러에 Juniper Networks를 인수하며 물려받은 기술을 지속적으로 교차 수분(cross-pollinate)시키면서 네트워킹에 대한 집중도를 높였습니다. 그러나 HPE는 클라우드(cloud)와 에지(edge)에서 소프트웨어(software) 및 보안(security)에 이르기까지 다른 다양한 영역으로 더욱 깊숙이 확장했습니다.
소프트웨어 분야에서는 GreenLake Intelligence에 초점을 맞추고 있습니다. 여기에는 조직이 어떤 에이전트(agent)를 보유하고 있는지뿐만 아니라, 그 에이전트가 어디에 있으며 무엇을 할 수 있도록 허용되었는지 확인할 수 있는 중앙 에이전트 레지스트리(agent registry)가 포함됩니다. 또한, AI 에이전트와 대규모 언어 모델(LLM)을 위한 OpsRamp Copilot을 통해 활용도와 토큰 기반 소비를 모니터링하며, 에이전트뿐만 아니라 AI 팩토리(AI factories) 및 워크로드(workloads)와 관련된 비용을 관리합니다.

인프라 자동화 소프트웨어의 최신 버전인 Morpheus 9은 이제 여러 사이트의 연합 관리(federated management)를 위한 Morpheus Central, 자연어를 사용하여 프로비저닝(provisioning)을 수행하는 Morpheus Orchestration Copilot, 그리고 통합 소프트웨어 정의 네트워킹(software-defined networking)을 포함합니다.

"Morpheus Central는 실행 위치나 관리 대상에 관계없이 모든 분산된 Morpheus 인스턴스에 걸쳐 단일 운영 계층을 제공합니다"라고 Russo는 말했습니다.
HPE는 Alletra MPX 10000 스토리지를 2년 된 Private Cloud AI와 통합하여 거버넌스(governance) 및 메타데이터(metadata)를 위한 정책을 자동으로 적용하고 있습니다.
Russo는 모든 에이전트, 추론(inference), AI 워크플로(workflow)가 컨텍스트(context)에 의존한다고 설명했습니다. 컨텍스트는 시스템의 작업 메모리(working memory)와 상황 인식(situational awareness)을 구성하여 관련성 있고 정확한 응답을 생성하는 배경 정보입니다. 사용할 때마다 컨텍스트를 다시 구축해야 하는 시스템은 토큰이 소모되고 프로세스가 느려집니다. Russo는 "AI에서 메모리는 더 이상 기술적인 세부 사항이나 공급망의 과제가 아닙니다. 그것은 전략적 자원입니다"라고 강조했습니다.
KV 캐시 (KV cache)는 컨텍스트 (context)를 다시 구축할 필요성을 제거하며, 이는 스토리지가 AI를 위한 활성 메모리 (active memory)가 된다는 것을 의미합니다. HPE에게 이는 HPE Alletra Storage X10000 시스템이 해당 정보의 저장소 (repository)가 된다는 것을 뜻합니다.
“단순히 데이터를 저장하는 것이 아니라, AI가 필요로 하는 곳 어디에서나 데이터, 컨텍스트, 그리고 지능을 사용할 수 있도록 유지하는 것입니다.”라고 그녀는 말했습니다. “이는 GPU가 데이터를 기다리며 소비하는 시간을 줄여줍니다. 인프라가 수행할 수 있는 유용한 작업량을 증가시킵니다. 그리고 X10K는 스토리지를 AI 효율성의 활성 구성 요소로 전환하며, AI의 경제적 가치에 핵심적인 기여를 합니다.”
테스트 결과에 따르면, Russo는 MX 10000이 20배 더 빠른 첫 번째 토큰 생성 시간 (time-to-first-token)과 17배 더 높은 처리량 (throughput)을 제공한다고 밝혔습니다.
Private Cloud AI 서버에는 Nvidia의 에이전트 툴킷 (Agent Toolkit)이 포함될 예정입니다. 여기에는 GPU 제조사의 OpenShell 보안 런타임 (secure runtime), NemoClaw 블루프린트 (blueprints), 그리고 Nemotron 모델이 포함되어 있어, 개발자들이 대규모 멀티 에이전트 환경 (multi-agent environments)을 설계, 구축, 실행 및 오케스트레이션 (orchestrate)하는 데 필요한 도구를 제공합니다.
내년 초 출시 예정인 HPE의 차기 ProLiant DL394 Gen12 서버에는 빠른 도구 호출 (tool calls), 오케스트레이션, 그리고 실시간 데이터 처리를 통해 에이전트를 지원하는 데 사용되는 Nvidia의 새로운 Vera CPU가 포함될 것입니다.
HPE의 프라이빗 클라우드 및 플렉스 솔루션(private cloud and flex solutions) 부문 수석 부사장 겸 총괄 매니저인 Cheri Williams에 따르면, 이러한 점들은 HPE가 기업들이 AI 인프라를 내부 데이터센터로 가져오는 경로를 완화하기 위해 노력하는 방식 중 일부를 다루고 있습니다. 왜냐하면 워크로드 (workloads)가 향하는 곳이 바로 그곳이기 때문입니다.
Williams는 패널 토론 중에 “퍼블릭 클라우드 (public cloud)에는 여전히 실험과 모델 학습을 위한 공간이 있으며, 고객들이 그렇게 하는 것을 여전히 볼 수 있습니다.”라고 말했습니다. “하지만 프로덕션 (production) 단계에 이르면, 대부분의 기업 고객은 온프레미스 (on-prem)로 향하고 있습니다. 프로덕션 환경을 퍼블릭 클라우드에서 운영하는 것은 경제성이 맞지 않습니다.”
AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기