X요약2026. 05. 28. 17:08

AI 클러스터 규모가 커질수록 GPU를 더 빠르게 만드는 것만으로는 전체 처리량이 선형으로 늘지 않는 이유는 뭘까.

요약

AI 클러스터 규모가 커짐에 따라 GPU 성능보다 GPU 간 데이터 전송 대역폭이 병목 현상의 핵심 원인이 되고 있습니다. 엔비디아는 이를 해결하기 위해 광 연결 기술과 광섬유 생산 능력 확대 등 인프라 투자에 집중하고 있습니다.

GPU 간 데이터 왕복이 병목으로 이동했기 때문이다.

기존 성능 공식은 미세공정과 HBM 용량 확대였지만, 수천 개 GPU가 동시에 동작할 때 연결 대역폭이 따라가지 못하면 GPU는 계산 대신 대기 상태에 머문다.

엔비디아는 이 문제를 해결하기 위해 루멘텀·코히어런트·마벨에 각각 20억 달러 투자를 집행했다.

코닝과는 미국 내 광섬유 생산능력을 50% 이상 확대하는 장기 파트너십을 맺었고, 아야르랩스는 5억 달러 시리즈2 라운드에 엔비디아·AMD가 참여했다.

Spectrum-X 포토닉스 스위치 SN6800은 단일 스위치 기준 409.6 Tb/s 처리 용량을 목표로 한다.

광 연결은 단순히 속도를 높이는 기술이 아니라, 고가 AI 장비가 idle 상태로 낭비되는 시간을 줄이는 운영 효율 문제로 바뀌고 있다.

다만 CPO 구조는 플러그형 대비 열·정렬·교체성이 까다로워 실제 데이터센터 적용 후 전력효율 개선 수치가 확인돼야 한다.

AI 자동 생성 콘텐츠