AI 클러스터 규모가 커질수록 GPU를 더 빠르게 만드는 것만으로는 전체 처리량이 선형으로 늘지 않는 이유는 뭘까.
요약
AI 클러스터 규모가 커짐에 따라 GPU 성능보다 GPU 간 데이터 전송 대역폭이 병목 현상의 핵심 원인이 되고 있습니다. 엔비디아는 이를 해결하기 위해 광 연결 기술과 광섬유 생산 능력 확대 등 인프라 투자에 집중하고 있습니다.
핵심 포인트
- GPU 간 데이터 왕복 병목 현상으로 인한 처리량 저하
- 엔비디아의 광 연결 기술 및 관련 기업 대규모 투자
- Spectrum-X 포토닉스 스위치를 통한 대역폭 확보
- CPO 구조의 전력 효율 및 운영 편의성 검증 필요성
AI 클러스터 규모가 커질수록 GPU를 더 빠르게 만드는 것만으로는 전체 처리량이 선형으로 늘지 않는 이유는 뭘까.
GPU 간 데이터 왕복이 병목으로 이동했기 때문이다.
기존 성능 공식은 미세공정과 HBM 용량 확대였지만, 수천 개 GPU가 동시에 동작할 때 연결 대역폭이 따라가지 못하면 GPU는 계산 대신 대기 상태에 머문다.
엔비디아는 이 문제를 해결하기 위해 루멘텀·코히어런트·마벨에 각각 20억 달러 투자를 집행했다.
코닝과는 미국 내 광섬유 생산능력을 50% 이상 확대하는 장기 파트너십을 맺었고, 아야르랩스는 5억 달러 시리즈2 라운드에 엔비디아·AMD가 참여했다.
Spectrum-X 포토닉스 스위치 SN6800은 단일 스위치 기준 409.6 Tb/s 처리 용량을 목표로 한다.
광 연결은 단순히 속도를 높이는 기술이 아니라, 고가 AI 장비가 idle 상태로 낭비되는 시간을 줄이는 운영 효율 문제로 바뀌고 있다.
다만 CPO 구조는 플러그형 대비 열·정렬·교체성이 까다로워 실제 데이터센터 적용 후 전력효율 개선 수치가 확인돼야 한다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @j90236317 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기