클라우드 GPU 학습의 숨겨진 비용: 데이터 전송(Egress), 유휴 시간(Idle time), 그리고 락인(Lock-in)
요약
클라우드 GPU 학습 시 표면적인 시간당 요금 외에 발생하는 유휴 시간, 데이터 전송(Egress), 락인 비용의 위험성을 분석합니다. GPU 활용률 저하로 인한 비용 낭비를 방지하기 위한 모니터링과 파이프라인 최적화의 중요성을 강조합니다.
핵심 포인트
- GPU 유휴 시간은 실제 컴퓨팅 비용보다 더 큰 지출 원인이 될 수 있음
- 낮은 GPU 활용률은 데이터 로더 병목 및 과다 할당 등 구조적 문제에서 기인함
- nvidia-smi 모니터링을 통한 유휴 상태 감지로 GPU 지출 20~35% 절감 가능
- 데이터 업로드는 무료이나 외부로 나가는 Egress 비용은 매우 높음
GPU 시간당 요금은 누구나 비교하는 수치입니다. 하지만 이 수치는 실제 학습 실행(training run)에 비용이 얼마나 드는지에 대해 가장 적은 정보를 제공하기도 합니다.
특화된 클라우드에서 H100을 시간당 2달러에서 3.50달러에 제공한다는 표면적인 가격은 눈에 보이는 빙산의 일각일 뿐입니다. 실제 청구서는 거의 아무도 비교 스프레드시트에 넣지 않는 세 가지 요소로 구성됩니다: 유휴 상태(idle)로 방치된 GPU, 이동시켜야 하는 데이터, 그리고 언젠가 클라우드를 떠날 때 발생하는 비용입니다. 이 포스트에서는 2026년 수치를 바탕으로 각 요소를 분석하고, 이에 대해 실제로 무엇을 할 수 있는지 설명합니다.
1. 유휴 시간(Idle time): 아무것도 하지 않으면서 전액 지불하기
대부분의 설정에서 가장 비용이 많이 드는 항목은 컴퓨팅(compute) 자체가 아닙니다. 그것은 지불은 하지만 전혀 사용하지 않는 컴퓨팅입니다.
5퍼센트의 문제
2026년 Cast AI 보고서에 따르면, 주요 클라우드의 Kubernetes 클러스터 전반에 걸친 평균 GPU 활용률(utilization)은 약 5% 수준에 머물러 있습니다. 다른 분석들은 조금 더 관대합니다. Anyscale는 지속적인 프로덕션 활용률을 50% 미만으로 보고했고, FinOps 연구는 20~30%로 나타났지만, 결론은 동일합니다: 여러분이 지불하는 모든 GPU 시간 중 대부분은 유용한 작업을 수행하지 않습니다.
발생 원인
이는 게으름의 문제가 아니라 구조적인 문제입니다. 워크로드(Workloads)는 CPU 전처리(preprocessing), GPU 학습(training), 그리고 CPU 후처리(postprocessing) 사이를 오갑니다. GPU 노드 상의 Python 데이터 로더(dataloaders)는 가속기(accelerator)를 굶주리게 만듭니다. 팀들은 메모리 부족(out-of-memory) 오류를 피하기 위해 과다 할당(overprovision)을 하며, "만약을 대비해" 가장 큰 인스턴스를 기본값으로 선택합니다.
CPU 낭비보다 더 치명적인 이유
유휴 상태의 CPU는 시간당 몇 센트의 비용이 듭니다. 하지만 유휴 상태의 GPU는 시간당 몇 달러의 비용이 듭니다. 단 하나의 AWS p4d.24xlarge 인스턴스를 주말 내내 유휴 상태로 두면 아무런 작업 없이 약 1,573달러를 태우게 됩니다. 한 달 동안 밤 시간대와 주말에 유휴 상태로 두면 인스턴스당 통상적으로 3,000달러에서 8,000달러를 낭비하게 됩니다.
대처 방법
- 유휴 상태 감지(Idle detection) 추가.
nvidia-smi를 모니터링하는 스크립트를 작성하여, 사용률이 30분 동안 약 5% 미만으로 유지될 경우 인스턴스 규모를 축소(Scale down)하는 것은 대부분의 팀이 실행할 수 있는 가장 높은 투자 대비 수익(ROI)을 가진 작업입니다. 이를 통해 일반적으로 GPU 지출의 20~35%를 절감할 수 있습니다. - 하드웨어 적정 규모 산정(Right-size). 모든 작업에 H100이 필요한 것은 아닙니다. 더 작은 카드가 동일한 결과를 제공할 수 있음에도 가장 큰 카드를 사용하는 것은 순전한 비용 낭비입니다.
- 파이프라인을 먼저 최적화. 데이터 로더(Dataloader)가 GPU에 데이터를 제대로 공급하지 못하고 있다면(Starving), 더 큰 GPU를 사용하는 것은 도움이 되지 않습니다. 하드웨어를 업그레이드하기 전에 입력 파이프라인을 프로파일링(Profile)하십시오.
2. Egress: 데이터 이동에 따르는 비용
데이터를 업로드하는 것은 어디서나 무료입니다. 하지만 데이터를 외부로 이동하는 것은 무료가 아니며, 이러한 비대칭성은 의도된 것입니다.
2026년 요금 체계
여러 가격 조사 결과에 따라 확인된 바에 따르면: AWS는 외부로 나가는 데이터(Outbound)에 대해 GB당 약 0.09달러, 즉 TB당 약 90달러를 부과합니다. Google Cloud는 GB당 0.12달러로 더 높습니다. Azure는 비슷한 범위에 있습니다. Hetzner는 대규모 무료 허용량을 포함하며, 이를 초과할 경우 TB당 1달러 수준의 요금을 부과합니다. 일부 오브젝트 스토리지(Object-storage) 옵션은 Egress 비용이 완전히 제로(0)입니다.
학습 과정에서 비용이 증폭되는 이유
데이터의 양이 방대하고 반복적이기 때문입니다. 데이터셋(Datasets), 체크포인트(Checkpoints), 그리고 내보낸 가중치(Weights)가 모두 이동합니다. 매달 10TB를 외부로 추출하는 워크로드의 경우, 하이퍼스케일러(Hyperscaler)와 Egress 비용이 없는 제공업체 간의 차이는 수천 달러의 비용 항목과 거의 제로의 비용 사이의 차이와 같습니다.
대처 방법
- 연산(Compute)과 스토리지(Storage)를 동일한 위치에 배치. 학습 데이터를 GPU와 동일한 리전(Region) 및 동일한 제공업체에 유지하십시오. 존(Zone) 내 전송은 보통 무료이지만, 인터넷 Egress는 무료가 아닙니다.
- 전송 전 압축. gzip 또는 zstd를 사용하면 체크포인트와 데이터셋의 볼륨을 30~60%까지 줄일 수 있으며, Egress 비용은 바이트(Byte) 단위로 청구됩니다.
- 제공업체 비교 시 Egress 비용을 포함할 것. Egress 비용이 비싼 제공업체의 저렴한 GPU 시간당 요금은, Egress 비용이 없는 제공업체의 더 비싼 시간당 요금보다 손해일 수 있습니다.
3. Lock-in: 탈출하기 위해 지불해야 하는 비용
세 번째 비용은 탈출하려고 시도하기 전까지는 보이지 않는 비용입니다. 이는 Egress와 동일한 메커니즘이지만, 더 긴 관점에서 바라본 것입니다.
데이터 중력(Data gravity)은 닻과 같습니다.
수 테라바이트(Terabytes)의 데이터와 체크포인트(Checkpoints)가 한 지역(Region)에 쌓이고 나면, 이를 이동시키는 것은 느리고 비용이 많이 듭니다. Egress(데이터 전송) 비용은 단순히 전송당 발생하는 비용이 아니라, 저장하는 기가바이트(Gigabyte)가 늘어날수록 커지는 '탈출세(Exit tax)'와 같습니다. 설계 구조상 데이터가 더 많이 쌓일수록, 해당 환경을 떠날 가능성은 낮아집니다.
데이터만이 문제가 아닙니다
독점적인 서비스(Proprietary services), 맞춤형 도구(Custom tooling), 그리고 특정 제공업체 전용 오케스트레이션(Provider-specific orchestration)은 모두 이동 비용을 높입니다. 하지만 학습 워크로드(Training workloads)의 경우, 가공되지 않은 데이터 중력(Data gravity)이 가장 무거운 닻 역할을 합니다.
대응 방안
- 이식 가능한 포맷과 오픈 도구를 선호하십시오. 표준 컨테이너 이미지(Standard container images), 오픈 체크포인트 포맷(Open checkpoint formats), 그리고 제공업체에 종속되지 않는 오케스트레이션(Provider-agnostic orchestration)은 선택의 폭을 넓혀줍니다.
- 탈출 비용을 사전에 모델링하십시오. 예상되는 연간 데이터 볼륨을 기준으로 모든 데이터를 외부로 이동시키는 데 드는 비용을 계산해 보십시오. 그 수치가 경악스럽다면, 나중이 아니라 지금 바로 이를 고려해야 합니다.
- 데이터 집약적인 작업에는 Egress가 없거나 낮은 환경을 선택하십시오. 이동 비용이 저렴하면 락인(Lock-in) 현상은 대부분 사라지며, 여러분은 자신의 인프라에 대한 통제력을 유지할 수 있습니다.
종합하자면
표면적인 GPU 요율(GPU rate)은 전체 이야기 중 아주 작은 부분에 불과합니다. 현실적인 비용 모델은 다음과 같습니다:
(GPU 요율 x 시간 x 유휴 시간(Utilization gap)) + 스토리지(Storage) + Egress + 최종적인 탈출 비용
여기서 두 가지 결론이 도출됩니다. 첫째, 유휴 시간(Utilization) 문제를 해결하는 것이 대개 가장 빠른 성과를 내는 방법입니다. 왜냐하면 여러분은 이미 오늘 그 낭비되는 비용을 지불하고 있기 때문입니다. 둘째, Egress와 락인(Lock-in)은 프로젝트가 진행되는 내내 복리로 작용하는, 시작 단계에서 내려야 하는 결정입니다.
이것이 바로 클라우드 제공업체 시장의 지형이 변화하고 있는 이유입니다. 특화된 GPU 클라우드와 지역별 제공업체들은 바로 이러한 숨겨진 비용을 두고 점점 더 치열하게 경쟁하고 있습니다. 즉, 미로 같은 부수적 수수료 대신 투명한 시간당 과금을 제공하고, 데이터와 데이터 이동의 자유를 온전히 사용자의 것으로 유지할 수 있도록 Egress 비용을 제로(Zero)로 책정하는 방식입니다. 유럽의 Orion AI Factory가 이러한 모델의 한 예이며, 동일한 논리가 점점 늘어나는 지역 및 특화 제공업체 전반에서 나타나고 있습니다. 이들의 공통점은 과거에 각주(Footnotes) 속에 숨겨져 있던 요소들을 가격 책정에 반영하고 있다는 점입니다.
이 중 그 어떤 것도 생소한 도구를 필요로 하지 않습니다. 사용률 (Utilization)을 모니터링하고, 데이터를 연산 (Compute) 장치 근처에 유지하며, 이동하는 데이터는 압축하고, 락인 (Lock-in) 되기 전에 탈출 비용 (Exit cost)을 파악하십시오. 비용 측면에서 승리하는 팀은 가장 큰 예산을 가진 팀이 아닙니다. 그들은 시간당 요금 (Hourly rate) 너머를 읽는 팀입니다.
참고 문헌 (References)
- Cast AI, GPU 사용률 보고서, 2026
- Anyscale, 프로덕션 GPU 사용률 분석, 2026년 1월
- GPUPerHour, 44개 이상의 제공업체에 걸친 데이터 전송 (Data egress) 가격 책정 (https://gpuperhour.com/reference/data-egress), 2026년 4월
- LeanOps, AI 클라우드 비용 최적화 가이드, 2026
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기