AI 팩토리 시대를 위한 스토리지: 토론
요약
본 기사는 AI 팩토리 시대에 필요한 스토리지의 변화를 다루며, 에이전틱 AI의 복잡한 워크플로우가 메모리와 스토리지에 대한 새로운 수요를 창출하고 있음을 설명합니다. 이러한 수요를 충족하기 위해 업계는 기존의 직접 연결/네트워크 연결 방식 외에 플래시 스토리지를 활용하는 '미들 티어' 계층을 구축하고 있습니다. 또한, 데이터 센터의 효율성을 극대화하기 위한 액체 냉각 기술과 GPU 중심에서 벗어나 스토리지 자체가 핵심적인 요소가 되는 '익스트림 공동 설계'의 중요성이 강조됩니다.
핵심 포인트
- 에이전틱 AI 워크플로우는 복잡한 추론 과정으로 인해 메모리와 스토리지를 대폭 증가시키는 새로운 수요를 발생시키고 있습니다.
- AI 스토리지는 전통적인 고비용/초고속 스토리지와 저비용/대용량 네트워크 스토리지 사이의 '미들 티어' 계층을 필요로 합니다.
- KV 캐시는 연산 절약에 기여하는 별도의 스토리지 계층으로, 높은 성능과 재계산 가능성(recomputability)이라는 특징을 가집니다.
- 데이터 센터는 열 관리와 전력 공급까지 아우르는 '익스트림 공동 설계'를 통해 액체 냉각 SSD 등 혁신적인 방식으로 효율성을 높이고 있습니다.
- 미래의 AI 팩토리는 GPU가 핵심이 아닌, 최대 25 exabytes에 달하는 플래시 스토리지를 포함한 통합 시스템으로 진화할 것입니다.
몇 주 전, 저는 Solidigm의 SVP이자 제품 및 마케팅 책임자인 Greg Matson, 그리고 NVIDIA의 네트워킹 SVP인 Kevin Deierling와 함께 AI가 스토리지에 어떤 영향을 미치고 있는지에 대해 이야기하기 위해 자리를 함께했습니다. 영상은 Solidigm에서 호스팅하지만, 독자분들께 이 토론 내용을 안내해 드리고자 합니다. Kevin은 한때 자신의 OpenClaw/NemoClaw 클로(claws)를 착용하기도 했습니다.
AI 팩토리 시대를 위한 스토리지: 토론
인터뷰를 확인하고 싶으시다면, YouTube의 이곳에서 보실 수 있습니다:
그곳에는 NVIDIA CPX, 액체 냉각 SSD (liquid-cooled SSDs), 그리고 NVIDIA BlueField-4 DPU에 관한 흥미로운 정보들이 담겨 있습니다. 이번 인터뷰를 진행하며 제가 배운 점 중 하나는, 오늘날 웨이퍼(wafer) 한 장 분량의 NAND가 단 하나의 SSD에 들어간다는 사실입니다. 우리가 다룬 주요 주제들은 다음과 같습니다:
에이전틱 AI (Agentic AI)로의 전환은 더 많은 스토리지를 요구함
2025년이 AI 추론 (inferencing)에 집중된 해였다면, 2026년은 복잡하고 다단계적인 추론을 수행하는 AI "에이전트 (agents)"의 해가 될 것으로 전망됩니다. 이러한 에이전틱 워크플로우 (agentic workflows)는 AI가 점점 더 커지는 컨텍스트 윈도우 (context windows) 내에서 "생각"하고, 계획하며, 정보를 유지해야 하므로, 메모리와 스토리지에 대한 거대한 새로운 수요가 발생하고 있습니다.
**AI 스토리지를 위한 새로운 "미들 티어 (Middle Tier)"
이러한 수요를 처리하기 위해 업계는 새로운 계층의 스토리지를 구축하고 있습니다. 전통적으로 시스템은 매우 빠르지만 비용이 많이 드는 직접 연결 스토리지 (Direct Attached Storage, 예: 테라바이트당 10,000달러에 달하는 HBM 메모리) 또는 용량은 매우 크지만 속도가 느린 네트워크 연결 스토리지 (Network Attached Storage) 중 하나에 의존해 왔습니다. 플래시 스토리지 (Flash storage)는 이 두 극단 사이의 계층으로 사용되고 있습니다.
KV 캐시 (KV Cache)가 GPU 성능을 최적화함
KV 캐시는 AI 팩토리 성능에 엄청난 영향을 미칩니다. 왜냐하면 대량의 데이터를 입력하고 이를 향후 보고서 생성을 위한 소스로 사용할 때와 같이, 엄청난 양의 연산을 절약해 주기 때문입니다.
원본 문서는 언제든 재계산(recompute)될 수 있으므로, 이러한 계층의 AI 스토리지(AI storage)는 완벽한 내구성(durability)과 결함 허용(fault tolerance)을 요구하는 기존의 규칙을 엄격하게 준수할 필요가 없으며, 이를 통해 추가적인 설계 최적화가 가능해집니다.
“익스트림 공동 설계 (Extreme Co-Design)”와 액체 냉각 (Liquid Cooling)
데이터 센터는 물리적 공간과 전력 제한으로 인해 큰 제약을 받습니다. 생산적인 GPU의 점유 면적을 극대화하기 위해, NVIDIA와 Solidigm은 열 관리(thermal management)부터 전력 공급(electrical delivery)에 이르기까지 모든 분야에서 협력하는 “익스트림 공동 설계 (Extreme Co-Design)”를 채택하고 있습니다. 액체 냉각 SSD(Liquid-cooled SSDs)가 그 예시이며, 우리는 Solidigm의 액체 냉각 가능 NVMe SSD 설계뿐만 아니라 차세대 NVIDIA Vera Rubin 랙을 선보였을 때도 이를 보여주었습니다.
AI 팩토리의 미래 전망
향후 3~5년 내에 AI 지능은 어디에나 통합될 것이며, 그 결과 모든 규모의 팩토리가 등장할 것입니다. 이는 소형 공장 로봇과 자동차부터 거대한 기가와트(gigawatt)급 데이터 센터에 이르기까지 다양할 것입니다. 단일 기가와트 AI 팩토리는 최적의 효율성을 위해 최대 25 엑사바이트(exabytes)의 플래시 스토리지(flash storage)를 필요로 할 수 있습니다. 궁극적으로 핵심적인 결론은 GPU가 방정식의 일부일 뿐이라는 점입니다.
토론 중에 Kevin은 또한 KV 캐시(KV caches)가 데이터 센터 내에서 다른 유형의 스토리지와 근본적으로 구별되는 별도의 계층이자 유형의 스토리지라는 점을 언급했습니다. KV 캐시는 AI 클러스터(AI clusters)의 연산 수요를 줄이는 데 도움을 주며, 이는 로컬 모델을 실행하며 KV 캐시를 켜고 끈 경험이 있는 사람이라면 즉시 알 수 있는 부분입니다. 이러한 캐시는 고성능(high-performance)이어야 하지만, 회복 탄력성(resilience) 관점에서는 데이터가 손실되더라도 재계산(recomputed)할 수 있습니다. 이 점이 회복 탄력성을 위해 속도와 지연 시간(latency)을 희생하는 대부분의 데이터와는 다른 스토리지 계층로 만드는 요소입니다.
맺음말
맺음말
이번 내용은 저희가 평소에 다루는 직접적인 하드웨어 콘텐츠는 아니지만 (비록 Greg이 촬영 중인 공간에 NAND 웨이퍼와 SSD를 가져오긴 했지만), 배경음처럼 틀어놓고 듣기에 좋은 내용일 것입니다. 위에 삽입된 영상을 확인해 보세요. 많은 분이 한동안 요청해 주셨던 만큼, 앞으로도 더 많은 인터뷰와 패널 토론 (panel discussions)을 진행할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 ServeTheHome의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기