
Amazon, 하드웨어를 69% 절감하고 처리량을 33% 높이는 'Resilient Network Graphs' 데이터 센터 네트워크 공개 —
요약
Amazon이 무작위 그래프 이론을 적용한 새로운 데이터 센터 네트워크 아키텍처인 'Resilient Network Graphs(RNG)'를 공개했습니다. 이 설계는 기존 계층적 구조를 대체하여 하드웨어 사용량을 69% 줄이고 처리량을 33% 향상시킵니다.
핵심 포인트
- 무작위 그래프 기반 플랫 네트워크로 하드웨어 69% 절감
- 데이터 센터 네트워크 처리량 최대 33% 향상
- 기존 계층적 구조의 병목 현상 및 인프라 비용 문제 해결
- AWS의 주요 데이터 센터에 이미 배포 및 확장 중
Amazon은 네트워크 전력 소비를 40% 줄이면서 처리량(throughput)을 최대 33% 높일 수 있다고 주장하는 새로운 데이터 센터 네트워킹 아키텍처를 공개했습니다. Wired의 보도에 따르면, 이는 회사가 무작위 그래프 이론(random graph theory)에 기반한 플랫 네트워크(flat network)를 최초로 대규모 배포한 사례라고 합니다. Amazon은 작년부터 데이터 센터에 이 설계를 조용히 배포해 왔으며, 이미 대부분의 AWS 워크로드에 대한 기본 데이터 센터 네트워크가 되었음을 확인했습니다.
Resilient Network Graphs (RNG)라고 불리는 이 아키텍처는 수십 년 동안 클라우드 데이터 센터를 지배해 온 계층적 네트워킹 구조(hierarchical networking structures)를 서버 간에 데이터를 더 효율적으로 이동하도록 설계된 더 평평한 준무작위(quasi-random) 아키텍처로 대체합니다. Amazon은 이 설계가 기존 아키텍처보다 네트워킹 장치를 69% 적게 사용하며, 인프라 비용을 최대 45%까지 절감할 수 있다고 밝혔습니다. 이는 전 세계 클라우드 인프라 전반에 걸쳐 수십억 달러의 비용 절감으로 이어질 잠재력이 있습니다.
이 회사는 2024년 더블린 데이터 센터에 RNG를 처음 배포한 후, 독일과 스페인의 시설로 아키텍처를 확장했습니다. AWS는 이 설계가 현재 대부분의 신축 데이터 센터에 도입되고 있으며, 향후 배포의 기반이 될 것이라고 밝혔습니다.
데이터 센터 및 AI 역량에 관한 논의는 일반적으로 프로세싱(processing)과 스토리지(storage)에 집중됩니다. 하지만 네트워킹은 역량의 가장 중요한 측면 중 하나입니다. 사용자의 장치에서 클라우드 애플리케이션, 데이터베이스, AI 모델 또는 스토리지 서비스로 전송되는 모든 요청은 수천 개, 심지어 수십만 개의 서버를 가로질러 데이터가 빠르게 이동하는 것에 의존합니다. 시설이 계속 확장됨에 따라, 정보가 올바른 목적지에 빠르고 효율적으로 도달하도록 보장하는 것은 점점 더 어려운 엔지니어링 과제가 되고 있습니다.
수십 년 동안 대부분의 대규모 데이터 센터는 "fat-tree" 토폴로지(topology)로 알려진 계층적 네트워킹 구조에 의존해 왔습니다. 이 설계에서는 데이터가 트리 형태의 계층 구조로 배열된 스위치와 라우터의 계층을 따라 위아래로 이동합니다. 이 방식은 검증되었고 신뢰할 수 있지만, 병목 현상(bottlenecks)을 일으키고 가용 대역폭(bandwidth)에 부담을 줄 수 있습니다. 네트워크의 다른 곳에서 용량이 사용되지 않더라도, 트래픽이 계층 구조의 특정 지점에 집중될 수 있습니다. 또한 이 방식은 다수의 고가 네트워킹 장비를 필요로 합니다.
연구자들은 무작위 그래프(random graph) 원리에 기반한 더 평탄한(flatter) 네트워크가 이러한 문제 중 많은 부분을 해결할 수 있다는 이론을 오랫동안 제시해 왔습니다. 트래픽을 미리 정의된 계층을 통해 강제로 통과시키는 대신, 라우터들을 고도로 분산된 메시(mesh) 형태의 배치로 연결하여 엔드포인트(endpoints) 사이에 수많은 가능한 경로를 생성하는 방식입니다. 이론적으로 이는 회복 탄력성(resilience)을 개선하고, 가용 대역폭의 활용도를 높이며, 혼잡(congestion) 가능성을 줄여줄 것입니다.
과제는 이러한 네트워크를 실용적으로 만드는 것이었습니다. 무작위 그래프 네트워크는 10년 이상 학술적 연구 대상이었음에도 불구하고, 주요 장애물들로 인해 하이퍼스케일(hyperscale) 규모에서의 성공적인 배포가 저지되어 왔습니다. 이러한 네트워크를 통해 트래픽을 효율적으로 라우팅하는 것은 예측 가능한 계층 구조를 통해 라우팅하는 것보다 훨씬 더 복잡하며, 운영상의 악몽을 초래하지 않으면서 수백만 개의 광섬유 링크(fiber-optic links)를 물리적으로 연결하는 것은 완전히 다른 차원의 도전 과제입니다.
Tom's Hardware의 최고의 뉴스 및 심층 리뷰를 편지함으로 직접 받아보세요.
AWS는 소프트웨어와 맞춤형 하드웨어라는 두 가지 핵심 혁신을 통해 이러한 장애물을 극복했다고 밝혔습니다. 첫 번째는 Spraypoint라고 불리는 맞춤형 라우팅 프로토콜(routing protocol)로, 주로 최단 경로(shortest path)에 의존하는 대신 방대한 수의 가용 경로에 트래픽을 분산시킵니다. 두 번째는 ShuffleBox라고 불리는 수동 광학 장치(passive optical device)로, 대규모 네트워크 구축에 필요한 엄청난 양의 케이블링을 정리하고 표준화하도록 설계되었습니다.
Amazon에 따르면, 결과적으로 도출된 아키텍처는 기존 설계보다 데이터를 약 1/3 더 빠르게 이동시킬 뿐만 아니라, 훨씬 더 적은 수의 스위치(switch)와 라우터(router)를 필요로 합니다. 회사는 이러한 감소가 자본 지출(CAPEX)과 운영 비용(OPEX)을 모두 낮추는 동시에 전력 소비도 줄여준다고 밝혔습니다.
AI 모델은 점점 더 커지고 강력해지고 있으며, 그 사용자층 또한 늘어나고 있습니다. 이러한 성장을 유지하기 위해 하이퍼스케일러(hyperscalers)는 전체 기술 스택(technology stack)을 지속적으로 최적화해야 합니다. 더 빠른 칩(chip)은 여전히 중요하지만, 냉각(cooling), 전력 공급(power delivery), 스토리지 시스템(storage systems), 광 상호 연결(optical interconnects), 그리고 네트워킹(networking) 분야의 발전 또한 마찬가지입니다. AWS는 RNG가 그러한 이점 중 하나라고 믿습니다. 회사는 무작위 그래프 이론(random graph theory)을 대규모로 배포한 성과를 다음과 같이 평가하며, 이는 "AWS 고객에게 더 높은 신뢰성과 성능을 제공하고, 하드웨어 비용을 수십억 달러 절감하며, CO2 배출량을 낮출 돌파구"라고 정당하게 간주하고 있습니다.

최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Google 뉴스에서 Tom's Hardware를 팔로우하거나, 저희를 선호하는 소스로 추가하세요.
Etiido Uko는 빅테크와 PC 산업의 최신 업데이트를 다루는 Tom's Hardware의 뉴스 기고자입니다. 그는 기계 공학자이자 9년 이상의 문서화 및 보고 경험을 가진 시니어 테크니컬 라이터(senior technical writer)입니다. 그는 공학 및 기술의 모든 분야에 깊은 열정을 가지고 있으며, 가젯, 제조, 로보틱스, 자동차 및 항공우주 분야의 전문가입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Tom's Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기