GPU 활용률이 새로운 클라우드 낭비 위기가 되고 있다

기업들은 이제 대부분의 시간을 대기 상태로 보내는 인프라에 프리미엄 시장 가격을 지불하고 있습니다. 이 시대를 규정하는 수치는 다음과 같습니다. Cast AI의 '2026 Kubernetes 최적화 현황 보고서(2026 State of Kubernetes Optimization Report)'에 따르면, 설문 조사가 아닌 23,000개 클러스터에서 측정된 실제 운영 텔레메트리(Telemetry)를 바탕으로 분석했을 때 기업용 Kubernetes 클러스터 전반의 평균 GPU 활용률(Utilization)은 5%에 불과합니다. 이 수치는 할당된 GPU 용량의 95%가 어느 순간에도 유휴(Idle) 상태임을 의미합니다. 또한 이는 NVIDIA가 H200 예약 가격을 약 15% 인상하며, 컴퓨팅 비용이 하락하던 20년 간의 패턴을 깨뜨린 시점과 정확히 일치합니다. 업계는 지난 2년 동안 GPU 부족을 AI 인프라의 결정적인 문제로 취급해 왔습니다. 다음 단계는 그 반대의 상황이 지배할 것입니다. 즉, 효율적으로 활용할 수 없는 GPU 용량을 대량으로 과다 예약하고, 그 특권에 대해 더 많은 비용을 지불하는 조직들이 나타날 것입니다.

GPU 부족 서사가 진짜 문제를 가렸다
2023년부터 2025년까지 GPU 부족은 합리적이지만 아키텍처 측면에서 부식적인 행동, 즉 방어적 과다 프로비저닝(Defensive over-provisioning)을 유발했습니다. 조직들은 이를 채울 워크로드(Workload)가 존재하기도 전에 용량을 예약했습니다. GPU 예약은 전략적 해자(Moat)가 되었습니다. 스팟(Spot) 가용성이 불확실하고 온디맨드(On-demand) H100을 확보하기 위해 몇 주간의 대기열을 기다려야 하는 경쟁 환경에서 가속기(Accelerator)를 선점하는 수단이 된 것입니다. 이러한 행동은 부족한 상황에서는 타당했습니다. 아무도 최적화가 아닌 획득에만 집중했기 때문에 활용률 텔레메트리(Utilization telemetry)가 무의미한 환경을 만들었습니다. 하지만 그 환경은 사라졌습니다. 비용 구조가 변했습니다. 대기열은 완화되었습니다. 그리고 5%라는 활용률 수치는 이제 수십억 달러의 GPU 약정 지출 이면에 숨겨진 운영상의 현실이 되었습니다. 이제 질문은 GPU를 어디서 구할 것인가가 아닙니다. 기업이 이미 보유하고 있는 GPU가 왜 돌아가지 않고 있는가입니다.

GPU 활용률은 CPU 활용률이 아니다
이 지점이 대부분의 FinOps 분석이 잘못되는 부분입니다. GPU 활용률은 CPU 활용률의 더 비싼 버전이 아니며, 최적화 플레이북(Playbook) 또한 동일하지 않습니다.

CPU 환경은 워크로드(Workload)가 비교적 대체 가능하기 때문에 높은 활용률(Utilization)에 보상을 줍니다. 부하가 많이 걸린 CPU는 일반적으로 유용한 작업을 수행하고 있는 것입니다. 반면 GPU 환경은 높은 활용률 수치를 기록하면서 동시에 추론 지연 시간(Inference latency)을 저하시키거나, 요청 큐(Request queues)를 고갈시키거나, 제한된 VRAM 경계에 워크로드를 과도하게 집중시킬 수 있습니다. 추론 요청의 배치(Batching)가 제대로 이루어지지 않고 메모리 할당이 파편화된 상태에서 90%의 활용률로 실행되는 GPU는 잘 운영되는 GPU가 아니라, 포화(Saturated)된 GPU입니다. 목표는 최대 GPU 활용률이 아닙니다. 목표는 배치 인식 스케줄링(Placement-aware scheduling) 하에서의 제어된 활용률입니다. 이러한 운영상의 차이는 모든 계층에서 복합적으로 나타납니다. GPU 예약은 CPU처럼 탄력적(Elastic)으로 이루어질 수 없습니다. 추론 지연 시간 제약 조건으로 인해, 요청 사이에 스케일 투 제로(Scale to zero)를 수행할 경우 초 단위로 측정되는 콜드 로드(Cold-load) 페널티를 피할 수 없기 때문입니다. VRAM 파편화(Fragmentation)는 사용 가능한 것처럼 보이는 메모리가 모델을 효율적으로 공존시킬 수 없기 때문에 현재 워크로드에서 주소 지정(Addressable)이 불가능한 경우가 많음을 의미합니다. 배치 복잡성(Batching complexity)은 처리량(Throughput)을 최대화하는 전략이 지연 시간을 규정하는 SLA(Service Level Agreement)와 직접적으로 충돌함을 의미합니다. GPU 지역성(Locality)은 대부분의 스케줄링 논의에서 생략되는 또 다른 차원을 추가합니다. 스케줄러는 사용 가능한 가속기를 볼 수 있지만, 워크로드는 패브릭 간 대역폭(Cross-fabric bandwidth) 페널티를 피하기 위해 특정 NVLink 토폴로지(Topology), PCIe 인접성(Adjacency), 또는 노드 공동 배치(Node co-location)를 요구할 수 있습니다. 분산 추론(Distributed inference)과 조정된 배치(Coordinated batching)는 정수 단위의 장치 수로 작동하는 스케줄러가 명시적인 지역성 제약 조건 없이는 추론할 수 없는 토폴로지 요구 사항을 부과합니다. 스케줄러의 맹점(Scheduler Blindness): Kubernetes 스케줄러는 nvidia.com/gpu: 1을 정수로 인식합니다. 스케줄러는 VRAM 상태, 모델 상주(Residency), 배치 큐 깊이(Batching queue depth) 또는 NVLink 토폴로지에 대한 가시성이 없습니다. 할당(Allocation)과 활용(Utilization)은 완전히 다른 두 가지 문제이며, 스케줄러는 그중 하나만을 해결할 뿐입니다. GPU 낭비 삼각형(The GPU Waste Triangle): GPU 활용 실패는 무작위로 발생하지 않습니다. 기업용 배포 전반에 걸쳐 동일한 세 가지 구조적 패턴이 반복적으로 나타나는데, 이것이 바로 GPU 낭비 삼각형입니다.

예약 낭비 (Reservation Waste) — 낮은 정상 상태 점유율 (steady-state occupancy) 상태에서 폭발적 추론 (burst inference)을 위해 보유 중인 GPU. 자원 부족 시기에는 합리적이었던 조달 행태가, 가정된 규모만큼 거의 실현되지 않는 폭발적 수요에 대비해 용량을 예약해 두는 환경을 만들었습니다. 별도의 노력 없이도 얻을 수 있는 활용도 기준선은 약 30% 수준이지만, 평균 5%를 기록하는 기업들은 그 6분의 1 수준으로 운영하고 있습니다. 파편화 낭비 (Fragmentation Waste) — 효율적으로 공존할 수 없는 모델들 사이에 고립된 VRAM. 대부분의 스케줄러 (scheduler)는 GPU 하위 할당 (sub-GPU allocation) 도구가 아직 성숙 단계에 있기 때문에 기본적으로 GPU 전체를 할당합니다. 그 결과, 기술적으로는 할당되었으나 어떤 활성 워크로드 (workload)에 의해서도 주소 지정이 불가능한 메모리가 발생합니다. 조정 낭비 (Coordination Waste) — 배치 형성 (batch formation)을 기다리며 상류 (upstream)에서 요청이 대기하는 동안 GPU가 유휴 (idle) 상태로 머무는 현상. 이는 가장 혼란스러운 증상을 만들어냅니다. 즉, 추론 지연 시간 (inference latency)은 악화되는데 활용률은 낮은 현상이 동시에 나타나는 것입니다. GPU가 유휴 상태인 이유는 수요가 없어서가 아니라 — 큐 깊이 (queue depth)가 수요가 있음을 보여주지만 — 오케스트레이션 계층 (orchestration layer)이 가속기 (accelerator)에 데이터를 계속 공급할 수 있을 만큼 충분히 빠르게 배치 조립을 조정하지 못하기 때문입니다.

낭비 유형	근본 원인	관찰 가능한 신호	해결책
예약 (Reservation)	FOMO 기반 조달, 정적 용량 계획	낮은 정상 상태 활용률, 높은 예약 비용	배치 정책 (placement policy), 지속적인 적정 규모 산정 (rightsizing)
파편화 (Fragmentation)	GPU 전체 할당, MIG 미도입	VRAM은 할당되었으나 미사용, 공존 (co-residency) 실패	스케줄러 설정, MIG 파티셔닝
조정 (Coordination)	미흡한 배치 (batching), 교차 존 (cross-zone) 디스패치	유휴 GPU + 높은 큐 지연 시간 동시 발생	추론 오케스트레이션, 지역성 인식 배치 (locality-aware placement)

Kubernetes는 조용히 AI 인프라 스케줄러가 되어가고 있다
AI 인프라는 Kubernetes가 가속기를 이해하기도 전에 Kubernetes 제어 평면 (control plane)을 물려받았습니다. 오늘날 Kubernetes에 존재하는 스케줄링 가정, 권한 모델, 그리고 거버넌스 격차는 현재 GPU 워크로드가 강제로 운영되어야 하는 환경과 동일합니다. 2026년 3월 KubeCon Europe에서 NVIDIA는 GPU를 위한 동적 자원 할당 드라이버 (Dynamic Resource Allocation Driver)를 Cloud Native Computing Foundation에 기부했습니다.

이것은 구조적인 신호입니다. 이기종 가속기 스케줄링 (heterogeneous accelerator scheduling)은 이제 특정 벤더의 제품이 아닌, 커뮤니티 인프라의 문제입니다. Kubernetes가 AI 워크로드 분야에서 승기를 잡고 있는 이유는 컨테이너가 승리했기 때문이 아니라, 엔터프라이즈 규모에서 스케줄링 문제가 피할 수 없게 되었기 때문입니다. 이틀 전, NVIDIA는 GPU Usage Monitor를 발표했습니다. 이는 Helm으로 배포 가능한 관측성 (observability) 스택으로, 표준 Kubernetes 메트릭 스택이 GPU 특화 신호를 드러내지 못한다는 점을 고려하여 특별히 제작되었습니다. 이러한 도구의 격차 때문에 낭비는 청구서에 나타나기 전까지는 보이지 않는 것입니다. 진정한 최적화 계층은 더 이상 GPU 자체가 아닙니다. 그것은 워크로드가 어디서, 언제, 그리고 어떤 토폴로지 (topology) 하에서 실행될지를 결정하는 스케줄러 권한 (scheduler authority)입니다.

왜 관측성 (Observability)만으로는 GPU 낭비를 해결할 수 없는가
NVIDIA GPU Usage Monitor와 DCGM Exporter는 신호를 제공합니다. 하지만 이들은 할당 모델 (allocation model)을 변경하지 않습니다. 활용률이 5%라는 것을 아는 것은 낭비가 존재한다는 사실을 알려줄 뿐, VRAM 파편화 (fragmentation), 예약 동작 (reservation behavior), 또는 조정 실패 (coordination failures)를 해결해주지는 않습니다. 해결을 위해서는 상류 (upstream)에서의 변화가 필요합니다: 요청이 도착하기 전에 지역성 제약 조건 (locality constraints)을 인코딩하는 배치 로직 (placement logic), 추론 서빙 계층 (inference serving layer)에서 처리량 (throughput)과 지연 시간 (latency)의 균형을 맞추는 배치 전략 (batching strategies), 일시적 여유분 (burst headroom)과 구조적 낭비를 구분하는 예약 정책 (reservation policies), 그리고 GPU 토폴로지를 일급 배치 변수 (first-class placement variable)로 취급하는 스케줄러 설정이 필요합니다. 추론 배치 문제와 AI FinOps 모델의 실패는 동일한 아키텍처 격차의 하류 (downstream) 결과입니다. 즉, 가속기 워크로드를 추론하도록 설계되지 않은 제어 평면 (control plane)이 현재 엔터프라이즈 스택에서 가장 비용이 많이 드는 인프라 계층을 관리하고 있는 것입니다.

아키텍트의 결론
업계는 GPU를 효율적으로 운영하는 방법을 배우기도 전에, GPU를 확보하는 데 공격적으로 최적화했습니다.

그 결과, 스택에서 가장 비싼 인프라가 대부분의 시간을 대기하며 보내는 환경이 만들어졌습니다. 작업을 기다리고, 배치(batch)가 형성되기를 기다리고, 조율(coordination)을 기다리며, 가속기(accelerator)를 여전히 대체 가능한 CPU급 리소스로 모델링하는 오케스트레이션(orchestration) 레이어를 기다리는 것입니다. GPU 부족(scarcity)이 AI 인프라 시대의 시작 단계였다면, GPU 효율성(efficiency)은 그 다음에 오는 운영 단계입니다. 제어 평면(control plane) 문제 — 배치 권한(placement authority), 스케줄러 거버넌스(scheduler governance), 지역성 제약(locality constraints), 예약 규율(reservation discipline) — 를 가장 먼저 해결하는 팀은 현재의 5% 기준선이 완전히 다른 시대처럼 보일 정도의 비용 프로필로 운영하게 될 것입니다.

추가 리소스
추론 라우팅(Inference Routing)은 인프라 배치 문제로 변하고 있다 — 배치 권한이 대규모 추론 비용을 결정한다
AI 워크로드(Workloads)는 전통적인 FinOps 모델을 파괴한다 — 가속기 레이어에서 CPU 비용 모델이 실패하는 이유
유휴 비용(Idle Cost)은 새로운 데이터 전송 비용(Egress Cost)이다 — 클라우드 비용 아키텍처에서의 구조적 예약 평행성
CAST AI 2026 Kubernetes 최적화 현황 보고서 — 23,000개 클러스터의 프로덕션 텔레메트리(telemetry)
NVIDIA GPU 사용량 모니터 — Helm으로 배포 가능한 GPU 관측성(observability) 스택

원문 게시처: rack2cloud.com

GPU 활용률이 새로운 클라우드 낭비 위기가 되고 있다

요약

핵심 포인트

댓글