AWS, EC2 G7 출시로 NVIDIA Blackwell 확보 — G6 대비 AI 추론 성능 4.6배 향상하며 클라우드 경쟁사 압도
요약
AWS가 NVIDIA Blackwell 기반의 EC2 G7 인스턴스를 출시하며 클라우드 시장 선점에 나섰습니다. G6 대비 AI 추론 성능이 최대 4.6배 향상되었으며, 700 Gbps EFA 네트워킹을 통해 대규모 모델 추론 효율을 극대화했습니다.
핵심 포인트
- NVIDIA Blackwell 기반 RTX PRO 4500 탑재
- G6 대비 AI 추론 성능 최대 4.6배 향상
- 700 Gbps EFA 네트워킹으로 멀티 노드 추론 최적화
- 32GB GDDR7 메모리 및 고밀도 랙 구성 지원
Amazon Web Services는 2026년 6월 19일, RTX PRO 4500 Blackwell Server Edition 기반의 EC2 G7 인스턴스를 출시하며 NVIDIA의 최신 세대 서버 GPU를 제공하는 최초의 주요 클라우드 제공업체가 되었습니다. 이 인스턴스는 기존 G6 제품군 대비 최대 4.6배의 AI 추론 (Inference) 성능을 제공한다고 주장하며, 이는 대규모 추론을 실행하는 고객들이 경제적 유인에 따라 워크로드 마이그레이션 (Workload migration)을 고려할 만큼 큰 격차입니다.
실제 하드웨어 사양
RTX PRO 4500 Blackwell Server Edition은 32 GB의 GDDR7 ECC 메모리, 800 GB/s의 메모리 대역폭 (Memory bandwidth), 그리고 51 TFLOPS의 FP32 연산 능력을 갖춘 싱글 슬롯 (Single-slot) 방식의 수동 냉각 (Passively cooled) 카드입니다. 165 W의 전력 소비량 덕분에 듀얼 슬롯 (Dual-slot) 액티브 쿨링 (Active-cooled) 카드가 도달할 수 없는 고밀도 랙 (Dense rack) 구성에 장착이 가능합니다. NVIDIA는 이 제품을 G6 세대의 주력 모델인 L4의 후속작으로 포지셔닝하고 있으며, AWS가 주장하는 AI 추론 성능 향상의 핵심인 약 41% 더 많은 CUDA 코어 (10,496개 vs 7,424개)와 5세대 텐서 코어 (Tensor Cores)를 탑재하고 있습니다.
Google Cloud나 Microsoft Azure보다 먼저 자체 인스턴스에 이 칩을 탑재함으로써, AWS는 경쟁사의 제품을 기다릴 수 없는 고객들을 위한 초기 수용자 (Early-adopter) 시장을 선점하고 있습니다.
주요 사실
- G6 인스턴스 대비 4.6배의 AI 추론 처리량 (AI inference throughput) (AWS 주장; 워크로드에 따라 다름)
- 렌더링 및 VDI를 위한 G6 대비 2.1배의 그래픽 성능
- GPU당 32 GB GDDR7, G6 대비 1.33배의 용량 및 2.45배의 메모리 대역폭 (memory bandwidth)
- 700 Gbps EFA 네트워킹, G6보다 7배 더 빠름 — 멀티 노드 추론 서빙 (multi-node inference serving)에 매우 중요
- 인스턴스당 최대 8개의 GPU: 총 256 GB GPU 메모리, 192 vCPU, 768 GiB 시스템 RAM
- 7.6 TB 로컬 NVMe SSD, 단일 GPU부터 8-GPU까지 총 7가지 인스턴스 크기 제공
- 현재 미국 동부(오하이오) 및 미국 서부(오리건)에서 사용 가능; 온디맨드 (On-Demand), Savings Plans 및 스팟 (Spot) 구매 가능
- AWS는 출시 시점에 시간당 가격을 공개하지 않음
700 Gbps 네트워킹 수치가 중요한 이유
Blackwell 아키텍처를 고려할 때 순수 GPU 사양은 예상 가능한 범위입니다. 더 중대한 수치는 G6 대비 7배 급증한 700 Gbps Elastic Fabric Adapter (EFA) 처리량일 수 있습니다. 현대의 LLM 추론 서빙은 컨텍스트 (context)를 여러 GPU에 분산시키는데, 이때 병목 현상은 순수 연산 능력이 아니라 GPU 간 메모리 전송에서 빈번하게 발생합니다. 인스턴스 수준에서 7배 더 높은 대역폭을 제공함으로써, G7은 여러 인스턴스에 걸친 샤딩 (sharding) 없이도 더 큰 모델 크기를 처리할 수 있는 한계치를 직접적으로 높여주며, 이는 지연 시간 (latency)과 토큰당 비용을 모두 낮춰줍니다.
또한 이 인스턴스들은 Amazon FSx for Lustre를 위한 EFA와 함께 NVIDIA GPUDirect RDMA를 지원하여, GPU 메모리가 CPU를 거치지 않고 분산 스토리지와 직접 통신할 수 있게 합니다. 이는 검색 증강 추론 (retrieval-augmented inference) 파이프라인을 위한 의미 있는 아키텍처입니다.
산업적 맥락: Blackwell의 모멘텀은 실재한다
G7 출시는 MLCommons가 6월 16일에 MLPerf Training 6.0 결과를 발표한 지 4일 만에 이루어졌습니다. 해당 결과에서 NVIDIA Blackwell 시스템은 기록적인 8,192-GPU 스케일아웃 (scale-out) 실행을 포함하여 모든 벤치마크를 석권했습니다. Blackwell GB300 NVL72는 동일한 랙 구성에서 GB200보다 최대 60% 빠른 학습 (training) 속도를 기록했으며, NVIDIA는 DeepSeek-V3 (671 billion parameters) 및 GPT-OSS-20B를 사용하는 두 가지 새로운 전문가 혼합 (Mixture-of-Experts, MoE) 테스트의 유일한 참가자였습니다. 이러한 벤치마크 검증은 기업 구매자들에게 Blackwell 세대가 단순히 문서상의 사양 (paper spec)이 아니라는 확신을 줍니다.
AWS의 투트랙 칩 전략
G7 출시는 단독으로 해석될 수 없습니다. 하루 전, AWS가 자체 Trainium 칩을 외부 데이터 센터에 판매하기 위해 적극적으로 논의 중이라는 보고가 나왔으며, 이는 Amazon의 AI 책임자인 Peter DeSantis에 의해 확인된 중요한 전략적 전환입니다. Andy Jassy의 2026년 4월 주주 서한은 Amazon의 반도체 사업이 외부로 판매될 경우 연간 매출 잠재력이 500억 달러에 달할 것으로 평가했으며, OpenAI (약 2 기가와트의 Trainium 용량)와 Anthropic (최대 5 기가와트)의 약속을 언급했습니다.
이러한 병치는 의도적입니다. AWS는 고객이 NVIDIA 실리콘을 선택하든 범용 대안을 선택하든 관계없이 필수적인 존재가 되고자 합니다. Blackwell을 우선적으로 제공하는 것은 NVIDIA와의 관계를 공고히 하며, Trainium을 개발하고 잠재적으로 외부화하는 것은 NVIDIA의 가격 책정에 압박을 가하는 신뢰할 수 있는 제2의 공급원 (second-source)을 만듭니다. Amazon은 별도로 2026년부터 100만 개 이상의 NVIDIA GPU를 배치할 것이라고 확인했으며, 이 수치는 AI 인프라 시장이 두 전략이 공존할 수 있을 만큼 충분히 크다는 점을 강조합니다.
영향을 받는 대상
가장 명확한 수혜 대상은 현재 G6의 메모리나 대역폭(bandwidth)을 포화 상태로 만드는 워크로드입니다: 대규모 멀티모달 추론 (large multimodal inference), 4K/8K 해상도의 실시간 비디오 트랜스코딩 (real-time video transcoding), Amazon EMR 및 EKS 상의 GPU 가속 분석 (GPU-accelerated analytics), 그리고 엔터프라이즈 규모의 가상 데스크톱 인프라 (virtual desktop infrastructure) 등이 이에 해당합니다. 4:2:2 H.264 및 HEVC를 지원하는 9세대 NVENC 엔진은 방송급 인코딩 요구 사항을 가진 미디어 기업들에게 G7을 특히 유용하게 만듭니다.
현재 예약 인스턴스 (Reserved Instances) G6를 사용 중인 기업들의 경우, 마이그레이션 계산은 공개되지 않은 G7 가격에 달려 있습니다. 4.6배의 성능 비율은 시간당 비용 비율이 해당 임계값보다 낮을 때만 워크로드 수준에서 이득을 볼 수 있지만, AWS는 아직 이 수치를 제공하지 않았습니다.
주목해야 할 점
가격 공개와 G7 예약 인스턴스 (Reserved Instance) 가용성은 단기적인 촉매제입니다. 공개적인 온디맨드 (on-demand) 요금이 없다면, 4.6배 성능 주장은 G6와의 비교는 물론, 자체적인 Blackwell 제품군으로 대응할 Azure 및 Google Cloud와의 추론당 비용 (cost-per-inference) 비교로 전환될 수 없습니다.
_출처: aws_infra, dcd_news, hpcwire, gn_gpu_cluster
원문 게시: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기