
OCP ORV3가 바꾸는 데이터 센터 전원 아키텍처 — 분산 BBU화와 TCO 구조의 재설계
요약
AI 시대의 급격한 전력 밀도 상승과 변동성에 대응하기 위해 OCP ORV3의 48V 분산 BBU 아키텍처가 주목받고 있습니다. 기존 중앙 집중형 UPS의 확장성 한계와 단일 장애점 리스크를 해결하는 구조적 대안을 분석합니다.
핵심 포인트
- NVIDIA Blackwell 등 고전력 GPU 도입으로 랙 전력 밀도 급증
- 기존 모놀리식 UPS의 확장성 및 응답 속도 한계 직면
- GPU 동기화 작업 시 발생하는 급격한 전력 변동(Power Pulse) 대응 필요
- OCP ORV3의 분산 BBU를 통한 전원 계통의 안정성 및 중복성 확보
OCP ORV3가 바꾸는 데이터 센터 전원 아키텍처 — 분산 BBU화와 TCO 구조의 재설계
서론
데이터 센터의 전원 계통은 AI 시대에 조용한 혁명을 맞이하고 있습니다.
NVIDIA Blackwell이 1 GPU당 1,200W를 소비하고, 랙 전력 밀도가 100kW를 초과함에 따라, 기존의 중앙 집중형 UPS 아키텍처가 구조적 한계에 직면하고 있습니다.
여기서 주목받는 것이 OCP ORV3입니다.
본고에서는 ORV3의 48V 분산 BBU 아키텍처에 초점을 맞추어, 왜 이 설계가 AI 데이터 센터에 적합한지, 그 구조적 의의와 TCO에 미치는 영향을 정리합니다.
제1장: 중앙 집중형 UPS의 구조적 한계
모놀리식(Monolithic)형 UPS가 안고 있는 근본적인 문제
기존의 데이터 센터 전원 계통은 「중앙 UPS → PDU → 랙 → 서버」라는 계층 구조였습니다. 전원실에 대형 UPS(통상 모놀리식형)를 설치하고, 거기서부터 각 랙으로 전력을 분배합니다.
이 구조는 안정적이고 예측 가능한 부하를 전제로 설계되었습니다. 전력 수요가 10년에 걸쳐 완만하게 증가하던 시대에는 충분히 기능했던 설계입니다.
하지만 AI 시대의 부하 특성은 근본적으로 다릅니다.
확장성의 물리적 한계 — 모놀리식형 UPS는 수요 증가 시 시스템 전체를 교체해야 합니다. '미래의 성장에 대비해 과잉 설계할 것인가' 아니면 '수요가 늘어난 후에 전부 교체할 것인가'라는 딜레마를 구조적으로 안고 있습니다. NVIDIA의 GPU 로드맵이 2~3년 만에 전력 밀도를 배로 늘리는 시대에, 이러한 확장성으로는 따라잡을 수 없습니다.
응답 속도의 물리적 한계 — 중앙 UPS는 랙에서 수 미터에서 수십 미터 떨어진 전원실에 있습니다. AI 학습에서 발생하는 서브 초(sub-second) ~ 밀리초(ms) 단위의 전력 변동에 대해, 배선의 길이와 전압 안정화 피드백 루프의 지연이 제약이 됩니다.
단일 장애점(SPOF) 리스크 — 모놀리식형 UPS가 고장 나면 전원 계통 전체가 다운됩니다. AI 학습 작업이 수억~수십억 엔 규모의 계산 자산을 순식간에 잃을 가능성을 안고 있는 구조입니다.
AI DC 특유의 전력 품질 요구사항
AI 학습 처리에서는 수만 장의 GPU가 분산 학습의 동기화 처리(All-Reduce 통신)를 배치(batch) 단위로 수행합니다. 이 순간, 모든 GPU가 계산에서 유휴(idle) 상태로 전환되며, 전력은 「계산 → 급락 → 계산 → 급락」이라는 방형파(square wave)를 형성합니다.

NVIDIA, Microsoft, OpenAI의 공동 연구에 따르면, 동기화된 GPU 워크로드는 전력 사용률을 「밀리초 단위로 30%에서 100%로」 변동시킵니다. 이 「파워 펄스(power pulse)」는 계통 수준의 주파수 진동을 일으킬 가능성마저 있습니다.
Meta가 공개한 트레이닝 로그(16,384 GPU · 54일간의 트레이닝) 데이터에 따르면, 훈련 기간 중 466회의 중단이 발생했으며, 그중 419회가 예기치 않은 장애였습니다. 평균 3시간에 1회의 장애 발생률을 보였으며, 그 대부분은 GPU · HBM3 메모리 고장이나 전력 관련 문제에 기인했습니다. 단 하나의 대규모 GPU 클러스터조차 이 정도 빈도로 문제가 발생한다는 현실은, AI DC 인프라에 기존 DC를 넘어서는 전력 품질과 중복성(redundancy) 요구가 있음을 보여줍니다. 중앙 UPS가 대응해야 할 시간축으로는 너무 먼 곳에서 발생하는 순간적인 전력 변동 및 전압 강하가 이러한 장애의 트리거가 될 수 있는 구조입니다.
ORV3가 당초 상정했던 동기는 중복성 향상, DC 배전 효율, 랙 독립성이었습니다. 하지만 AI DC 시대에 이 설계 선택을 되돌아보면, 「중앙 집중형 UPS가 AI 요구사항과 구조적으로 부합하지 않는다」는 현대적인 의의가 보입니다. 결과적으로 AI 시대에 가장 적합한 전원 아키텍처를 의도치 않게 준비하게 된 셈입니다.
제2장: ORV3 48V 아키텍처의 구조
ORV3가 48V를 선택한 논리
ORV3의 전제가 되는 전압 선택을 이해하려면, ORV2의 12V로부터의 진화를 추적해야 합니다.
12V 시대의 서버 랙에서는 시스템 전력이 증가함에 따라 전류가 급증했습니다. 전력 $P = ext{전압 } V imes ext{전류 } I$라는 기본식에 따르면, $V$를 높이지 않는 한 고전력화는 고전류화를 의미합니다. 고전류는 $I^2R$ 손실(줄 열, Joule heating)을 증가시키며, 굵은 도체(버스바, busbar)를 요구합니다.
ORV2에서 백플레인 전압을 12V에서 48V로 끌어올린 이유가 바로 여기에 있습니다. 동일한 전력을 1/4의 전류로 보내면, $I^2R$ 손실은 1/16이 됩니다. 구리 버스바의 단면적을 대폭 줄일 수 있고, 냉각 부하도 낮아집니다. ORV3는 이 48V 계통을 계승하고 있습니다.
ORV3 BBU 사양서에 따르면, BBU 셸프는 15kW 출력으로 4분간의 백업을 제공합니다. 버스바 전압은 48V 계통이며, 정전 시 BBU로부터의 공급으로 전환될 때도 46V 이상을 유지하도록 규정되어 있습니다.
파워 셸프(Power Shelf)와 BBU 셸프의 분리
ORV3의 전원 아키텍처는 다음 두 가지 컴포넌트로 구성됩니다.
파워 셸프(Power Shelf)——AC 입력을 DC(50V/48V)로 변환하는 유닛입니다. Advanced Energy나 Delta에서 제공하는 ORV3 파워 셸프는 1U 구성으로 18kW를 출력합니다. 3상 AC(480/277V~347/200V)를 받아 50V DC로 변환하며, 6개의 3kW PSU 모듈(5+1 중복 구성으로 15kW 실효 출력)로 구성됩니다.
BBU 셸프(BBU Shelf)——축전 및 백업 기능을 담당합니다. 6개의 BBU 모듈(5+1 중복 구성)로 구성되어, AC 정전 시 랙 내부의 모든 페이로드(Payload)에 직접 DC 전력을 공급합니다. 리튬 이온(Li-ion) 배터리 기반 설계가 레퍼런스로 널리 채택되고 있습니다.
두 요소는 공통의 48V 버스바(Busbar)로 연결되어 랙 내부의 컴퓨팅 장비(GPU, CPU, 스토리지 등)에 DC 전력을 분배합니다.
Catalina (Meta)의 구현 사례
Meta가 2024년 OCP Summit에서 발표한 Catalina 플랫폼은 ORV3의 고전력 버전(HPR: High Power Rack)으로서 최대 140kW까지 지원합니다. NVIDIA Blackwell 기반의 풀 랙 스케일(Full-rack scale) 솔루션으로 설계되었으며, 액체 냉각(Liquid Cooling)과의 통합을 전제로 합니다.
ORV3 HPR에는 48V 계통과 병행하여 ±400V(800V 등가) HVDC 버전의 개발이 진행되고 있으나, 본고에서는 현재 주류인 48V 계통에 집중하여 논하겠습니다.
제3장: BBU 분산화가 데이터 센터(DC) 전체에 미치는 구조적 변화
이 부분이 본고의 핵심입니다. BBU를 랙 내부에 분산 배치하는 것은 단순히 "배터리의 위치를 바꾸는" 문제가 아닙니다. 이는 데이터 센터 전체의 비용 구조를 재설계할 가능성을 가집니다.
중앙 UPS의 "기능 간소화"라는 아이디어
기존의 중앙 UPS는 여러 역할을 떠안고 있었습니다.
중앙 UPS (모노리식(Monolithic)형)의 역할:
├── 정전 대응 (수 분~수십 분)
├── 순간 전력 변동 흡수 (밀리초~초 단위)
...
이 모든 것을 단일 중앙 UPS가 담당하는 구조는 각 기능에 최적화된 설계를 할 수 없다는 제약을 낳았습니다.
BBU가 랙 내부에 존재함으로써 역할 분담이 가능해집니다.
새로운 아키텍처:
├── BBU (랙 내부, 분산형)
│ ├── 순간 전력 변동 흡수 (AI All-Reduce 펄스 대응)
...
이러한 역할 분담을 통해 중앙 UPS는 "전력 품질을 초 단위로 보장해야 하는" 무거운 역할에서 해방됩니다. 대신 "수 분 이상의 정전 시 디젤 발전기가 안정될 때까지 가교 역할을 한다"는 단순한 역할에 전념할 수 있습니다.
비용 구조의 연쇄 변화
중앙 UPS의 역할이 단순화되면 여러 비용 요소가 연쇄적으로 하락합니다.
중앙 UPS 용량 감소——기존에는 최대 피크 전력에 맞춰 설계해야 했습니다. BBU가 랙 내부에서 순간 변동을 흡수한다면, 중앙 UPS는 평균값에 가까운 용량으로 설계할 수 있습니다. 플라이휠(Flywheel)과 같은 고비용 장비의 필요성도 낮아집니다. 여러 시장 조사에 따르면 플라이휠의 초기 비용은 $1,000~$6,000/kWh 범위이며, 대기 전력으로 상시 약 3kW를 계속 소비하기 때문에 이를 절감할 수 있다면 연간 수백만 엔 규모의 운영 비용(Running Cost)을 낮출 수 있습니다.
GPU 열화 억제를 통한 GPU 교체 빈도 감소——AI 전력 변동에 따른 열 스트레스는 GPU 기판의 전압 레귤레이터, 솔더 조인트(Solder Joint), 커패시터를 열화시키며, 평균 전력이 사양 범위 내에 있더라도 장기적인 장애를 유발합니다. BBU를 통한 랙 내부의 변동 완충은 이러한 열화를 억제하여, 장당 수백만 엔 규모인 H100과 같은 GPU 자산의 실효 수명을 연장합니다.
냉각 부하의 평준화——전력 변동은 열 변동도 일으킵니다. 급격한 열 스파이크(Thermal Spike)에 대응하기 위한 냉각 설비의 과잉 설계가 변동 완충을 통해 불필요해집니다. 냉각은 데이터 센터 총 에너지 소비의 큰 비중(전통적으로 40%)을 차지하므로, 이 최적화의 영향은 매우 큽니다.
수요 요금(Demand Charge) 절감——AI 데이터 센터의 급격한 전력 변동이 계통(Grid)으로 전달되면, 전력 회사는 페널티 요금(Demand Charge)을 부과합니다. BBU를 통한 변동의 국소적 흡수는 이러한 추가 비용을 직접적으로 절감합니다.
계통 연결의 전략적 가치——2025년에는 데이터 센터가 축전지를 설치함으로써 계통에 대한 수요 응답(Demand Response)을 보장하고, 더 빠른 계통 연결을 확보한 사례가 나타났습니다. 계통 연결 리드 타임이 160주 이상으로 악화되고 있는 현재, 이는 비용 이상의 전략적 가치를 지닙니다.
확장성의 근본적 변화
모노리식형 중앙 UPS의 확장성 문제는 BBU 분산화를 통해 근본적으로 해결됩니다.
「성장에 맞춘 지불」 모델——랙(Rack) 단위로 BBU를 추가할 수 있기 때문에, 수요 증가에 따른 단계적인 투자가 가능합니다. 과잉 설계(에너지 낭비 및 자본 비용 증대)를 피할 수 있습니다.
핫스왑(Hot-swap) 가능성——개별 BBU 모듈은 교체가 가능하여, 시스템 전체를 중단하지 않고 유지보수를 할 수 있습니다. 이는 모노리식(Monolithic) 방식에서는 구현하기 어려웠던 부분입니다.
AI 세대 교체와의 동기화——GPU가 2~3년 주기로 세대 교체가 일어나는 시대에, 전원 인프라도 동일한 사이클로 업데이트할 수 있습니다. BBU의 사양 변경(배터리 기술의 진화 포함)을 랙 단위로 적용할 수 있습니다.
TCO 역전의 가능성
BBU 단독 비용으로 비교하면, 현재의 LIB(리튬 이온 배터리) 기반 BBU는 $150~200/kWh 정도입니다. 분산 BBU 구성은 중앙 집중형과 비교했을 때 BBU 단독 비용 측면에서는 높아질 가능성이 있습니다.
하지만 DC(데이터 센터) 전체의 TCO(총 소유 비용)로 평가 축을 전환하면 상황이 달라집니다.
| 비용 항목 | 기존 구성 (중앙 집중형) | 분산 BBU 구성 |
|---|---|---|
| BBU 단독 비용 | 기준 | 동등 또는 높음 |
| ... | DC 전체 TCO | |
| 기준 | 절감 가능성 높음 |
BBU 단독 비용의 차이를 시스템 전체의 연쇄 효과가 상쇄할 수 있는 가능성이 보입니다. 더욱 중요한 점은, 이 분산 아키텍처가 향후 BBU 기술 선택의 자유도를 크게 높여준다는 것입니다. 중앙 UPS와 같은 거대 고정 설비와 달리, 랙 단위의 BBU는 기술 업데이트 사이클이 짧아 새로운 배터리 기술의 도입이 현실적입니다.
마치며
ORV3가 48V 분산 BBU 아키텍처를 선택한 이유는 당초 중복성(Redundancy) 향상이나 DC 배전 효율과 같은 실리적인 목적이었습니다. 하지만 AI 시대가 된 지금 되돌아보면, 이 설계 선택이 AI DC의 구조적 요구 사항에 의도치 않게 부합했다는 것을 알 수 있습니다.
BBU 분산화를 통해 중앙 UPS는 기능 간소화가 가능해지며, GPU 열화 억제·냉각 평준화·디맨드 차지(Demand Charge) 절감·계통 연결 우위라는 연쇄 효과가 발생합니다. BBU 단독 비용 논의가 아닌 DC 전체의 TCO 논의로 시야를 넓힘으로써, 데이터 센터 전원 계통의 전체 최적화라는 새로운 설계 원칙이 보입니다.
데이터 센터의 전원 아키텍처는 조용하지만 확실하게 변하고 있습니다. 그 변화의 중심에 ORV3의 48V 분산 BBU가 있으며, 이곳이 차세대 배터리 기술의 주전장이 될 가능성이 있습니다. 구체적으로 어떤 배터리 기술이 이 BBU에 채택될 수 있을지——특히 전고체 배터리와 같은 차세대 기술이 여기서 활로를 찾을 수 있을지——에 대한 질문은 별도의 글 「전고체 배터리의 첫 번째 시장은 어디인가——OCP BBU와 우주라는 두 개의 전장」에서 다루겠습니다.
본 글은 Note 기사 「전고체 배터리는 데이터 센터를 구할 수 있는가——차세대 배터리 기술의 『현실』을 읽다」의 기술 상세 버전입니다.
본 글은 공개된 정보에 기반한 구조 분석이며, 특정 기업 및 제품에 대한 투자를 권장하지 않습니다.
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기