NVIDIA의 45°C 액체 냉각: AI 기술 인프라의 전환점

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 22일

NVIDIA는 방금 차가운 데이터 센터를 구식으로 만들었습니다. 그리고 온수 욕조보다 더 뜨거운 냉각제를 사용하는 직관에 반하는 선택은 데이터 센터 역사상 가장 큰 효율성 도약 중 하나입니다. Rubin 세대는 세계 최초의 100% 액체 냉각 (liquid-cooled) AI 기술 인프라로, NVIDIA의 레퍼런스 디자인(reference design)에서는 냉각제가 45°C(113°F)의 온도로 칩에 유입되며 물 소비가 전혀 없습니다. 현대적인 AI 기술을 구축하는 누구에게나 이것은 단순한 각주가 아닌 구조적인 변화입니다.

이것이 지금 중요한 이유는 NVIDIA Rubin을 위한 클라우드 인프라를 구축하는 모든 AI 기술 팀이 액체 냉각으로의 전환을 반드시 거쳐야 하기 때문입니다. 공랭식 (air-cooled) 경로는 더 이상 존재하지 않습니다. 전혀 없습니다. 경제적 측면은 가혹합니다. 역사적으로 냉각은 데이터 센터 전력의 최대 40%를 소비해 왔습니다.

이 글을 읽고 나면 전체 열 설계 (thermal architecture), 메가와트당 절감되는 비용, 그리고 왜 제가 이것이 제가 **AI 조정 격차 (AI Coordination Gap)**라고 부르는 더 깊은 시스템 문제를 드러낸다고 주장하는지 이해하게 될 것입니다.

NVIDIA 45 degree Celsius liquid cooling infrastructure for Rubin AI factory servers with closed loop cold plates

시스템 어디에도 팬(fan)이 없는 최초의 100% 액체 냉각 AI 인프라인 NVIDIA의 45°C 액체 냉각 아키텍처. 출처

NVIDIA가 45°C 액체 냉각에 대해 실제로 발표한 내용은 무엇인가?

2026년 6월 21일, Josh Parker (NVIDIA의 Sustainability and Corporate Affairs Senior Director)는 AI 인프라의 규칙을 조용히 재정립하고 있는 열 설계 아키텍처 (thermal architecture)의 세부 사항을 발표했습니다. 핵심 숫자는 기만적일 정도로 단순합니다. 바로 섭씨 45도입니다. 이는 NVIDIA의 최신 AI 서버로 유입되는 액체 냉각재 (liquid coolant)의 온도입니다. 이는 대부분의 사람들이 약 15분 정도만 몸을 담글 수 있는 일반적인 온수 욕조의 온도인 38~40°C보다 더 높습니다.

이 더 높은 온도 제한은 타협안이 아닙니다. 이것이 바로 시스템을 더 에너지 효율적으로 만드는 정확한 핵심입니다. Rubin 세대는 세계 최초로 100% 액체 냉각 (liquid cooling)을 달성한 AI 인프라입니다. 시스템 어디에도 팬 (fan)이 없으며, 모든 칩과 모든 네트워킹 구성 요소가 폐쇄 루프 (closed loop) 내의 액체에 의해 완전히 냉각됩니다. 이 방법론은 전체 AI 팩토리 인프라 스택을 설계, 구축 및 운영하기 위한 가이드인 NVIDIA DSX AI factory reference design에 명문화되어 있습니다.

모든 인프라 책임자가 주목해야 할 부분은 바로 이것입니다: DSX 레퍼런스 디자인은 **물 소비량이 제로 (zero water consumption)**라는 점입니다. Ali Heydari (NVIDIA의 Data Center Cooling and Infrastructure Director)는 "드라이 쿨러 (dry-cooler) 기반 설계의 경우, 증발식 수냉 (evaporative water cooling)이 없는 폐쇄 루프 시스템입니다. 일부 기후에서 칠러 (chiller)가 필요할 수도 있는 연간 약 1%의 기간을 제외하면 말이죠."라고 말했습니다.

이것이 왜 그토록 강력한 영향을 미칠까요? 그 이유는 냉각만으로도 역사적으로 데이터 센터 전력 소비량의 최대 40%를 차지해 왔기 때문입니다. International Energy Agency (IEA)의 분석과 Green Grid와 같은 단체들의 업계 추정치에 따르면, 칠러 (chiller) 플랜트의 온도를 단 1도만 높여도 냉각 에너지 비용을 약 4% 절감할 수 있다고 합니다. 하이퍼스케일 (hyperscale) 규모에서는 이러한 절감 효과가 빠르게 복리로 작용합니다. 50메가와트 (MW) 규모의 시설이 액체 냉각 (liquid-cooled) 인프라로 전환할 경우, 냉각 관련 에너지 및 용수 비용을 연간 400만 달러 이상 절감할 수 있습니다.

물 사용량 측면에서의 변화 또한 매우 극적입니다. 유리한 기후 조건에서는 45°C 아키텍처를 통해 드라이 쿨러 (dry coolers)를 이용한 칠러 없는 운영이 가능해지며, 기존 냉각탑 (cooling-tower) 시스템의 연간 메가와트당 약 260만 갤런에 달하던 시설 냉각 용수 소비량을 거의 제로(0)에 가깝게, 즉 최대 100%까지 줄일 수 있습니다. Uptime Institute이 반복적으로 경고했듯이, 물 부족 문제는 이제 이사회 수준의 현안이 되었습니다.

45°C
냉각제 입구 온도 — 온탕보다 뜨거운 온도
[NVIDIA Blog, 2026](https://blogs.nvidia.com/blog/liquid-cooling-ai-factories/)
...

하지만 저는 이 발표를 더 큰 무언가를 바라보는 렌즈로 사용하고자 합니다. NVIDIA는 단순히 더 나은 라디에이터 (radiator)를 출시한 것이 아닙니다. 그들은 컴퓨팅 (compute), 열 (thermal), 전력 (power), 그리고 물 (water)이 하나의 단위로 설계된 _조정된 시스템 (coordinated system)_을 출시했습니다. 그리고 이는 대부분의 AI 배포를 망가뜨리고 있는 정확한 실패 모드 (failure mode)를 드러냅니다. 이는 칩 레벨이 아니라, 시스템 레벨에서의 문제입니다.

명명된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (AI Coordination Gap)란 모델, 에이전트 (agents), 냉각, 검색 (retrieval), 오케스트레이션 (orchestration)과 같이 개별적으로 최적화된 AI 구성 요소들이 통합적인 조정 계층 (coordination layer) 없이 서로 결합될 때 발생하는 시스템적 실패를 의미합니다. 이는 국소적 효율성 (local efficiency)과 전역적 성능 (global performance) 사이의 간극을 지칭합니다.

대부분의 AI 워크플로우는 완전히 잘못된 문제를 해결하고 있습니다. 이들은 칩, 모델, 또는 프롬프트를 최적화하지만, 시스템이 서로 조율되어야 하는 접점(seams)에서 그 모든 것을 놓치고 맙니다.

45°C 혁신이란 무엇인가? (쉬운 설명)

전문 용어를 걷어내고 살펴보겠습니다. 전통적인 데이터 센터는 칩에 찬 공기를 뿜어내어 냉각합니다. 이 찬 공기를 만들기 위해 에너지를 많이 소비하는 칠러 (chillers)와 거대한 팬 (fans)을 가동해야 하며, 냉각탑 (cooling towers)에서는 수백만 갤런의 물을 증발시킵니다. 이는 소음이 심하고, 축축하며, 엄청나게 낭비적입니다.

NVIDIA의 Rubin 플랫폼은 이러한 모델 전체를 폐기합니다. 공기를 냉각하는 대신, 칩을 직접 냉각합니다. 콜드 플레이트 (cold plate)라고 불리는 금속판이 프로세서 바로 위에 놓입니다. 액체가 이 플레이트를 통해 흐르며 정확한 열원(source)에서 열을 흡수하고, 밀봉된 파이프를 통해 열을 운반합니다. 팬도 없고, 냉복도 (cold aisles)도 없으며, 증발하는 물도 없습니다.

여기에는 직관에 반하는 반전이 있으며, 잠시 이 부분을 깊이 생각해 보시길 권합니다. 엄청나게 뜨거운 AI 칩을 냉각하려면 얼음처럼 차가운 액체가 필요할 것이라고 가정하기 쉽습니다. 하지만 그것은 틀렸습니다. 냉각수는 45°C로 유입되어 열 부하 (heat load)를 흡수한 후 _약 55°C로 배출_됩니다. 프로세서는 전체 시간 동안 최대 성능으로 작동하는데, 이는 콜드 플레이트가 따뜻한 냉각수를 사용하더라도 실리콘을 검증된 작동 제한 범위 내로 유지해주기 때문입니다.

차가운 데이터 센터가 효율적인 데이터 센터라는 수십 년 된 미신이 있습니다. NVIDIA는 방금 그 반대를 증명했습니다. 냉각수를 빙점 근처가 아닌 45°C로 운용하는 것이 일 년 중 대부분의 기간 동안 칠러 없는 운영 (chiller-less operation)을 가능하게 하는 열쇠라는 사실을 말입니다. 더 따뜻한 것이 더 저렴합니다.

왜 더 따뜻한 액체가 비용을 절감할까요? 만약 액체 루프 (liquid loop)가 45°C로 작동한다면, 외부 공기가 문제가 될 정도로 뜨거워지는 일은 거의 없습니다. 단순한 실외 드라이 쿨러 (outdoor dry cooler) — 기본적으로 커다란 라디에이터와 같은 장치 — 가 기계식 칠러 (mechanical chillers)를 가동하지 않고도 그 열을 대기 중으로 방출할 수 있습니다. 여름철의 따뜻한 공기도 괜찮습니다. 서버 내부의 그 어떤 것도 더 이상 차가운 공기에 의존하지 않기 때문입니다. 액체가 모든 역할을 수행합니다. ASHRAE 열 가이드라인 (ASHRAE thermal guidelines)은 수년 동안 업계가 더 따뜻한 작동 범위 (operating envelopes)를 향하도록 조용히 밀어붙여 왔으며, NVIDIA는 이를 논리적인 결론으로 이끌어냈을 뿐입니다.

냉각제 자체는 특정한 혼합물입니다: **75%의 물과 25%의 프로필렌 글리콜 (propylene glycol)**로 구성되며, 새로운 물을 소비하지 않도록 폐쇄 루프 (closed loop) 내에서 재순환됩니다. 이는 냉각 분배 장치 (CDU, coolant distribution unit)에서 서버로 흐른 뒤 다시 돌아오기를 끊임없이 반복합니다.

더 따뜻하고 조율된 방식이 더 차갑고 무식한 방식보다 낫습니다.

Diagram comparing traditional air cooled data center cold aisles versus NVIDIA 100 percent liquid cooled Rubin cold plates

전/후 비교: 전통적인 공랭식 (air cooling)은 냉각된 공기와 증발식 타워 (evaporative towers)에 의존하는 반면, Rubin 아키텍처는 칩에서 직접 열을 포착합니다 — 이는 컴퓨팅과 열 설계 사이의 AI 조정 격차 (AI Coordination Gap)를 해소하는 물리적 구현입니다.

45°C 열 아키텍처는 단계별로 어떻게 작동하는가?

다음은 45°C 냉각을 가능하게 하는 전체 폐쇄 루프 흐름입니다. 모든 단계가 공동 설계 (co-designed)되었기 때문에 이 순서를 이해하는 것이 중요합니다. 조율이 사라지면 효율성은 무너집니다.

NVIDIA Rubin 100% 액체 냉각 폐쇄 루프

  1

    **냉각 분배 장치 (CDU, Coolant Distribution Unit)**

CDU는 75% 물 / 25% 프로필렌 글리콜 혼합물을 45°C로 랙 (rack)에 펌핑합니다. 이는 유량 (flow rate)과 압력을 관리하며, 시설 루프 (facility loop)를 칩 루프 (chip loop)로부터 격리합니다.

↓

  2
...

냉각제는 GPU, CPU 및 네트워킹 실리콘 (networking silicon) 위에 직접 놓인 콜드 플레이트 (cold plates)를 통해 흐릅니다. 열은 발생원(source)에서 실리콘으로부터 액체로 직접 전달됩니다. 공기 간극(air gap)도, 팬 (fans)도 필요하지 않습니다.

↓

  3
...

냉각제는 전체 열 부하 (heat load)를 흡수한 후 약 55°C의 온도로 칩을 빠져나옵니다. 실리콘은 검증된 한계 범위 내를 유지하므로 성능 저하가 발생하지 않습니다.

↓

  4
...

가열된 루프 (warm loop)는 실외 드라이 쿨러 (dry coolers)로 열을 방출합니다. 루프가 고온 (45–55°C)으로 작동하기 때문에 주변 공기는 거의 항상 충분히 차갑습니다. 즉, 칠러 (chillers)나 증발식 용수 (evaporative water)가 필요하지 않습니다.

↓

  5
...

냉각된 액체는 CDU로 돌아가며 사이클이 반복됩니다. 새로 소비되는 물은 제로(0)이며, 기후 조건이 불리한 경우에도 칠러는 연중 약 1% 정도만 가동됩니다.

이 시퀀스 (sequence)가 중요한 이유는 각 단계가 45°C 목표에 맞춰 공동 설계 (co-designed)되었기 때문입니다. 이 조율 (coordination)이 깨지면 칠러 없는 운영 (chiller-less operation)은 완전히 불가능해집니다.

Richard Whitmore (Motivair의 사장 겸 CEO이자 Schneider Electric의 첨단 냉각 부문)는 거의 10년 동안 NVIDIA의 로드맵과 함께 협력해 왔습니다. 그의 판단은 단호합니다: "칩당 와트 (watts per chip)가 특정 수준을 넘어서는 순간, 액체 냉각 (liquid cooling)은 필수 사항이 되었습니다."

AI 시스템의 조율이 실패하는 5가지 계층은 무엇인가?

이제 프레임워크 (framework)에 대해 알아보겠습니다. NVIDIA의 발표는 하드웨어 계층에서 '조율 격차 (Coordination Gap)'를 좁히는 것이 어떤 모습인지 보여주는 완벽한 사례 연구입니다. 동일한 격차가 전체 스택 상단의 AI 워크플로 (workflows)를 조용히 파괴하고 있습니다. 저는 모든 수준에서 이런 일이 발생하는 것을 목격해 왔습니다. 이를 다섯 가지 명명된 계층으로 나누어 설명하겠습니다.

명명된 프레임워크

AI 조율 격차 — 계층 모델 (The AI Coordination Gap — Layer Model)

모든 AI 시스템에는 다섯 가지 조율 계층이 있습니다: 열/물리 (Thermal/Physical), 컴퓨팅 (Compute), 검색 (Retrieval), 에이전트 (Agentic), 그리고 오케스트레이션 (Orchestration)입니다. 격차는 어느 한 계층이 다른 계층과 분리되어 단독으로 최적화될 때마다 발생합니다. 즉, 국지적인 승리가 전체적인 손실로 이어지는 것입니다.

계층 1 — 열 및 물리적 조율 (Layer 1 — Thermal & Physical Coordination)

이것이 바로 NVIDIA가 방금 완벽하게 해결한 계층입니다. 수년 동안 컴퓨팅 팀은 칩을 설계했고, 시설 팀은 냉각 시스템을 설계했습니다. 이들은 서로 다른 건물에서, 종종 서로 다른 예산 주기에 따라 별개로 움직였습니다. 그로 인한 낭비는 엄청났습니다. 전력의 40%가 냉각에 소모되었습니다. 그러다 NVIDIA는 단일 45°C 목표를 중심으로 칩, 콜드 플레이트 (Cold Plate), CDU (Cooling Distribution Unit), 그리고 드라이 쿨러 (Dry Cooler)를 공동 설계했습니다. 그 격차가 메워진 것입니다. 결과는 어떠했을까요? 50MW 시설당 400만 달러 이상의 비용을 절감했습니다. 이 교훈은 일반화될 수 있습니다. 컴퓨팅 (Compute)과 열 관리 (Thermal)는 두 개의 시스템이 아니라 하나의 시스템입니다.

계층 2 — 컴퓨팅 조율 (Layer 2 — Compute Coordination)

각 Rubin 세대는 와트당 훨씬 더 많은 컴퓨팅 성능을 제공합니다. 하지만 스케줄링 (Scheduling), 배치 (Batching), 그리고 메모리 조율 (Memory Coordination)이 부실하다면 가공되지 않은 FLOPs (Floating Point Operations per Second)는 무의미합니다. 활용률이 30%에 불과한 GPU는 컴퓨팅 계층 버전의 '조율 격차 (Coordination Gap)'이며, 이는 놀라울 정도로 흔한 현상입니다. 이것이 바로 기업용 AI (enterprise AI) 워크로드를 실행하는 운영 팀이 돈을 낭비하는 지점입니다. 아름다운 실리콘(Silicon)을 가지고도, 끔찍한 조율을 하고 있는 것입니다.