NVIDIA Rubin AI 기술: 냉각된 데이터 센터를 종식시킬 45°C 냉각 혁신

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 22일

NVIDIA가 AI 기술 혁신을 통해 차가운 데이터 센터를 구식으로 만들었습니다. 그리고 이를 가능하게 한 직관에 반하는 선택은 바로 온수 욕조보다 더 뜨거운 냉각제를 사용하는 것이었습니다.

2026년 6월 21일, NVIDIA는 자사의 Rubin 세대 AI 기술 인프라가 최대 45°C(113°F)에서 100% 액체 냉각 (Liquid Cooling)을 달성한 세계 최초의 기술임을 밝혔습니다. 이는 팬(Fan)을 완전히 제거하고 물 사용량을 거의 제로에 가깝게 줄였습니다. 냉각은 역사적으로 데이터 센터 전력의 최대 40%를 소비해 왔기 때문에, 이는 올해 가장 중대한 AI 기술 변화 중 하나입니다. 이 글을 읽고 나면 전체 열 설계 구조 (Thermal Architecture), 비용적 영향, 그리고 그 안에 숨겨진 더 깊은 시스템적 교훈을 이해하게 될 것입니다.

NVIDIA Rubin 45 degree liquid cooling architecture showing closed-loop cold plates on AI server chips

Rubin AI 팩토리를 위한 NVIDIA의 45°C 액체 냉각 (Liquid-cooling) 아키텍처 — 팬 없이 폐쇄 루프 (Closed loop) 내의 액체로 모든 칩을 냉각합니다. 출처: NVIDIA Blog

대부분의 AI 인프라 논의는 잘못된 문제를 해결하고 있습니다. 모두가 GPU 개수와 순수한 FLOPs에 집착합니다. 이는 예산 회의에서 제시하기 쉬운 주장입니다. 하지만 NVIDIA가 방금 공개한 혁신은 컴퓨팅 자체에 관한 것이 아닙니다. 전체 AI 공장 전반에 걸쳐 열(heat), 전력(power), 물을 조정하는 것에 관한 것입니다. 바로 이 같은 사각지대, 즉 연결된 시스템을 무시하고 개별 구성 요소만 최적화하려는 시도가 대부분의 프로덕션 AI 배포를 망치는 원인입니다. 저는 이것을 'AI 조정 격차(AI Coordination Gap)'라고 부르며, 이번 냉각 이야기는 제가 본 것 중 가장 명확한 예시를 보여줍니다. 소프트웨어 측면의 병렬적인 내용을 원하신다면, 저희 오케스트레이션 가이드가 같은 흐름을 다루고 있습니다.

정립된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차는 팀들이 개별 구성 요소(GPU, 모델, 에이전트 등)를 최적화하면서도 그것들을 함께 작동하게 만드는 오케스트레이션 레이어를 무시할 때 발생하는 시스템적인 실패입니다. AI에서 가장 큰 이득(그리고 가장 큰 실패)은 거의 항상 구성 요소 자체가 아니라 조정 과정에 존재합니다.

개요: NVIDIA가 발표한 내용과 이것이 왜 조정 이야기인가

2026년 6월 21일, NVIDIA의 Josh Parker는 [

Rubin 세대는 **100% 액체 냉각 (liquid cooling)**을 달성한 세계 최초의 NVIDIA AI 인프라입니다. 모든 칩과 모든 네트워킹 구성 요소가 시스템 어디에도 팬(fan)이 없는 폐쇄 루프(closed loop) 내에서 완전히 액체로 냉각됩니다. 이 방법론은 NVIDIA DSX AI factory reference design에 명문화되어 있으며, 이는 전체 AI 팩토리 인프라 스택을 설계, 구축 및 운영하기 위한 청사진입니다.

온도가 올라가면 왜 에너지가 줄어들까요? 루프(loop)의 온도가 높을수록, 에너지를 많이 소비하는 기계식 냉각기 (mechanical chillers) 대신 실외 드라이 쿨러 (outdoor dry coolers)를 사용하여 열을 방출할 수 있는 기간이 일 년 중 더 길어지기 때문입니다. NVIDIA의 데이터 센터 냉각 및 인프라 디렉터인 Ali Heydari는 다음과 같이 직설적으로 말했습니다. "AI 팩토리를 위한 NVIDIA DSX 레퍼런스 디자인은 물 소비가 제로입니다. 우리는 막대한 양의 전력 사용량과 거의 모든 물 사용량을 제거했습니다." DataCenter Dynamics와 미국 에너지부 (U.S. Department of Energy)의 독립적인 보고서들은 냉각이 효율성을 결정짓는 지배적인 레버(lever)라고 오랫동안 지적해 왔으며, 이것이 바로 이번 변화가 중요한 이유입니다.

여기서 조정 (coordination)의 관점이 명확해집니다. 이번 성과는 더 나은 칩이나 더 나은 라디에이터를 만든 것이 아닙니다. 데이터 센터의 주변 온도, 칩의 열 설계 전력 (thermal envelope), 냉각제 화학 성분, 그리고 시설의 워터 루프 (water loop)가 _하나의 결합된 시스템 (one coupled system)_이라는 점을 인식한 것입니다. 이들을 함께 최적화하면 에너지 카테고리에서 40%, 물 사용량에서 거의 100%의 절감을 달성할 수 있습니다. 반면, 과거의 기본 방식처럼 이들을 개별적으로 최적화한다면 그 모든 이점을 놓치게 됩니다. 이것이 바로 에이전트 (agents) 대신 열역학에 적용된 'AI 조정 격차 (AI Coordination Gap)'입니다. Nature와 로렌스 버클리 국립 연구소 (Lawrence Berkeley National Laboratory)의 연구원들은 수년 동안 데이터 센터 효율성에 대해 동일한 시스템적 논거를 제시해 왔습니다.

45°C
Rubin 시스템의 냉각재 입구 온도 (113°F)
NVIDIA Blog, 2026
...

이것은 무엇인가: 45°C 액체 냉각 AI 팩토리(AI Factory)를 쉬운 언어로 설명

데이터 센터에 발을 들여본 적이 없다면, 가장 간단하게 설명해 보겠습니다. 현대의 AI 칩은 너무나 많은 열을 발생시키기 때문에, 팬(fan)을 이용해 차가운 공기를 뿜어내는 전통적인 방식으로는 더 이상 감당할 수 없습니다. NVIDIA의 솔루션은 금속판("콜드 플레이트 (cold plate)")을 통해 칩에 액체를 직접 파이프로 공급하여, 발생원(source)에서 열을 흡수하고 밀폐된 파이프 루프(closed loop)를 통해 열을 운반하는 것입니다. 공기는 필요하지 않습니다. 팬도 전혀 필요 없습니다.

놀라운 점은 이 액체가 차가울 필요가 없다는 것입니다. 액체는 45°C로 칩에 들어와 열 부하(heat load)를 흡수한 뒤 약 55°C로 나갑니다. 콜드 플레이트가 실리콘을 검증된 작동 범위 내로 유지해주기 때문에, 칩은 내내 최대 성능으로 작동합니다. NVIDIA가 언급했듯이, 냉각재가 랙(rack)에 45°C로 유입되더라도 "성능은 저하되지 않습니다(performance doesn't degrade)".

냉각재 자체는 특정한 배합으로 구성됩니다: **물 75%와 프로필렌 글리콜 (propylene glycol) 25%**입니다. 이는 냉각재 분배 장치 (CDU, coolant distribution unit)에서 서버로 흐른 뒤 연속적인 폐쇄 루프 사이클을 통해 다시 돌아옵니다. 동일한 액체가 무한히 재순환되므로, 칩을 냉각하기 위해 새로운 물을 소비하지 않습니다.

수십 년 동안 업계는 차가운 데이터 센터가 효율적인 데이터 센터라고 믿어왔습니다. NVIDIA는 그 반대가 맞다는 것을 방금 증명했습니다. 루프(loop)를 더 뜨겁게 작동시킬수록, 이를 냉각하는 데 소모되는 에너지와 물은 더 적어집니다.

여기서 가장 큰 인식의 전환은 실온(room temperature)이 더 이상 중요하지 않다는 점입니다. NVIDIA는 이를 직접적으로 명시합니다: "따뜻한 여름 공기도 괜찮습니다. 서버의 그 어떤 것도 차가운 공기에 의존하지 않기 때문입니다. 액체가 모든 작업을 수행합니다." 서버의 열 관리(thermals)를 주변 공기(ambient air)로부터 분리(decoupling)하는 것, 그것이 이 게임의 핵심입니다.

Before and after comparison of air-cooled data center with noisy fans versus silent fanless liquid-cooled Rubin racks

기존 모델: 냉복도(cold aisles), 열복도(hot aisles), 그리고 85데시벨(dB) 이상의 팬 소음. Rubin 모델: 팬 없음, 냉복도 없음, 액체가 모든 열 관리(thermal work)를 수행 — 이는 AI 조정 격차(AI Coordination Gap)가 좁혀지고 있음을 보여주는 직접적인 예시입니다.

작동 원리: 열 아키텍처(Thermal Architecture), 단계별 분석

실리콘에서 하늘까지 열이 이동하는 경로를 추적해 보겠습니다. 여기서 조정(coordination) 사고가 구체화됩니다. 각 단계는 다음 단계로 열을 전달하며, 단 하나의 전달 과정이라도 조정에 실패하면 효율성 이득이 무너집니다. 동일한 논리가 멀티 에이전트 시스템 (multi-agent systems)에 관한 우리의 작업에도 근간을 이룹니다.

NVIDIA Rubin 45°C 폐쇄 루프 냉각 흐름 (Closed-Loop Cooling Flow)

  1

    **칩 위의 콜드 플레이트 (Cold Plate on Chip)**

냉각수(물 75% / 프로필렌 글리콜 25%)가 각 프로세서와 네트워킹 구성 요소 위에 직접 놓인 콜드 플레이트(cold plate)로 45°C 상태에서 유입됩니다. 열은 발생원(source)에서 즉시 포착되며, 공기는 관여하지 않습니다.

↓

  2
...

칩의 열 부하(heat load)를 흡수한 냉각수는 약 55°C로 배출됩니다. 실리콘은 전체 시간 동안 검증된 작동 제한 범위 내에 머물며, 스로틀링(throttling) 없이 전체 성능을 유지합니다.

↓

  3
...

CDU(Coolant Distribution Unit)는 뜨거워진 냉각수를 랙(rack) 외부로 보내고, 냉각된 액체를 지속적인 폐쇄 루프(closed loop)를 통해 서버로 다시 보냅니다. 이것이 열 시스템의 오케스트레이션 계층(orchestration layer)입니다.

↓

  4
...

루프가 뜨거운 상태로 작동하기 때문에, 드라이 쿨러(dry coolers)는 일 년 중 대부분의 기간 동안 외부 대기(ambient air)로 열을 방출합니다. 기계식 냉동기(mechanical chillers)나 증발에 의한 수분 손실이 없습니다. 일부 기후에서는 냉동기가 일 년 중 약 1% 정도만 가동됩니다.

↓

  5
...

동일하게 냉각된 냉각수가 다시 콜드 플레이트로 돌아옵니다. 폐쇄 루프(Closed loop) 방식은 증발에 의한 용수 소비가 없음을 의미하며, 이는 MW/년당 260만 갤런에서 거의 제로(zero)에 가까운 수준으로 감소합니다.

45°C의 입구 온도(inlet temperature)는 냉각기 (chiller) 없이도 4단계가 작동할 수 있게 만드는 핵심 요소입니다. 루프 온도를 높이면 시스템 전체의 효율이 극적으로 향상됩니다.

의존성 체인(dependency chain)을 주목하십시오. 건식 냉각기 (dry coolers)가 열을 효율적으로 방출할 수 있는 이유(4단계)는 루프가 고온으로 작동하기 때문(1~2단계)입니다. 용수 사용량이 거의 제로에 가깝게 줄어드는 이유(5단계)는 루프가 폐쇄형(closed loop)이며 냉각기 (chiller)가 거의 가동되지 않기 때문(4단계)입니다. 이 중 어느 하나라도 빠지면 절감 효과는 사라집니다. 이것은 독립적인 업그레이드들의 집합이 아니라 조율된 시스템(coordinated system)입니다. 이것이 바로 이전의 대부분의 "액체 냉각 (liquid cooling)" 시도들이 이러한 이득의 극히 일부만을 제공했던 정확한 이유입니다. 저는 팀들이 냉각탑 (cooling towers)을 계속 가동하면서 랙 (rack)에 콜드 플레이트 (cold plates)만 장착해 두고, 왜 경제성이 개선되지 않는지 의아해하는 것을 보아왔습니다. 바로 이 지점 때문입니다.

NVIDIA가 인용한 업계 추정치에 따르면, 냉각 설비 (chiller plant)의 온도를 단 1도만 높여도 냉각 에너지 비용을 약 4% 절감할 수 있습니다. 실온 미만의 루프에서 45°C로 전환하는 것은 시설 전체에 걸쳐 그 효과를 복리로 증가시키며, 이는 데이터 센터 효율성 측면에서 가장 강력한 레버리지(leverage)를 가진 조절 요소입니다. ASHRAE 열 가이드라인 (ASHRAE thermal guidelines)은 수년 동안 이 방향을 제시해 왔습니다.

명명된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap, 적용 사례)

열 시스템에서 격차(gap)란 각 칩을 잘 냉각하는 것과, 칩-CDU-건식 냉각기-재순환을 하나의 루프로 오케스트레이션(orchestrating)하는 것 사이의 차이를 의미합니다. 에이전트형 AI (agentic AI)에서 이는 스마트한 모델 하나와 모델들의 스마트한 "시스템" 사이의 차이와 같습니다. 실패 모드는 동일하지만 적용되는 영역이 다를 뿐입니다.

전체 기능 목록: Rubin 냉각 시스템이 제공하는 모든 것

100% 액체 냉각 (liquid cooling) — 모든 칩과 네트워킹 구성 요소에 적용되며, 시스템 어디에도 팬 (fan)이 없습니다. (NVIDIA)
45°C (113°F) 냉각수 입구 (coolant inlet) — 전체 성능을 유지하며, 냉각수는 약 55°C로 배출됩니다.
DSX 레퍼런스 디자인 (reference design) 내 물 소비 제로 (Zero water consumption) — 폐쇄 루프 (closed loop) 방식이며 증발 냉각 (evaporative cooling)이 없습니다. 일부 기후에서는 칠러 (chiller)가 연중 약 1%의 시간 동안만 필요합니다.
시설 냉각수 최대 100% 절감 — 연간 MW당 약 260만 갤런에서 거의 제로에 가깝게 감소합니다.
50MW 하이퍼스케일 (hyperscale) 시설 기준 연간 400만 달러($4M+) 이상의 비용 절감 — 냉각 관련 에너지 및 물 사용량 측면에서 발생합니다.
저소음 작동 (Silent operation) — 전통적인 데이터 센터에서 청력 보호구가 필요할 정도로 85데시벨(dB) 이상의 소음을 유발하는 팬 (fan) 소음을 제거합니다. Rubin 홀에서는 일반적인 대화가 가능합니다.
핫 에일 / 콜드 에일 (hot aisle / cold aisle) 설계 불필요 — 실내 주변 온도를 유연하게 설정할 수 있으며, 따뜻한 여름 공기도 문제없습니다.
유리한 기후 조건에서의 칠러 없는 작동 (Chiller-less operation) — 실외 드라이 쿨러 (dry coolers)를 사용합니다.
DSX 레퍼런스 디자인 (reference design) — AI 팩토리 스택을 설계, 구축 및 운영하기 위한 완전한 베스트 프랙티스 (best-practices) 청사진입니다.

50메가와트(MW) 규모의 시설이 냉각 비용으로 연간 400만 달러 이상을 절감하는 것은 단순한 오차 범위 내의 수치가 아닙니다. 이는 수익성이 있는 AI 팩토리와 그렇지 않은 팩토리를 가르는 차이입니다.

접근 및 사용 방법: 가용성 및 구현 경로

이것은 다운로드 가능한 도구가 아닙니다. 인프라 레퍼런스 디자인 (infrastructure reference design)이며, 스택의 어느 위치에 있느냐에 따라 채택 경로가 달라집니다.

→

**1단계 — Rubin 플랫폼 채택.**