arXiv논문2026. 05. 28. 12:09

OpenURMA: Unified Bus 프로토콜의 클린룸 오픈 구현

요약

Huawei의 Unified Bus(UB) 사양을 기반으로 한 최초의 클린룸 오픈 구현체인 OpenURMA를 소개합니다. UB는 기존 RDMA의 PCIe 병목 현상을 해결하기 위해 연결 상태를 분리하고 네이티브 CPU 로드/스토어 방식을 채택하여 지연 시간을 획기적으로 단축합니다.

핵심 포인트

OpenURMA는 UB의 전송 및 트랜잭션 계층을 구현한 오픈 소스 프로젝트임
기존 RoCEv2 대비 지연 시간을 약 4.37배 감소시킴
기존 방식보다 2.80배 높은 처리량을 제공함
RTL, SystemC 시뮬레이터, gem5 스캐폴드 등 3단계 계층으로 구현됨

현대의 데이터센터 RDMA (Remote Direct Memory Access)는 전송 선로(wire)가 아닌 네트워크 인터페이스에서 병목 현상이 발생합니다. RoCE (RDMA over Converged Ethernet) 또는 InfiniBand를 실행하는 NIC (Network Interface Card)는 모든 (애플리케이션, 원격 엔드포인트) 쌍에 대해 연결별 상태(per-connection state)를 유지하며, 1024개의 애플리케이션 팬아웃(fanout) 환경에서는 수백 메가바이트에 달합니다. 또한 64바이트 연산 시 4회의 PCIe 트래버설(traversal) 라운드 트립(round trip) 비용을 지불하게 되어, 지연 시간(latency)이 전송 선로 대비 한 자릿수(order of magnitude) 이상 늘어납니다. 이 두 가지 문제는 모두 RDMA가 InfiniBand로부터 상속받은 PCIe 상의 Queue Pair 추상화에서 기인합니다. 2025년 공개된 사양인 Huawei의 Unified Bus (UB)는 이 추상화를 변경합니다. UB는 애플리케이션별 엔드포인트 상태를 호스트별 전송 상태(per-host transport state)로부터 분리하여 연결 컨텍스트(connection context)가 가산적으로 증가하도록 하며, 순서 보장(ordering)을 선택 사항(opt-in)으로 노출하고, 온칩 버스 컨트롤러(on-chip-bus controller)에 대한 네이티브 CPU 로드/스토어(load/store)를 통해 원격 메모리에 도달합니다. UB는 Huawei의 폐쇄형 Ascend 950 실리콘에 탑재되어 있습니다. OpenURMA는 UB의 전송 계층(transport layer) 및 트랜잭션 계층(transaction layer)을 구현한 최초의 클린룸(clean-room) 오픈 구현체로, Alveo U50 상의 합성 가능한 RTL (Register Transfer Level), 사이클 레벨(cycle-level)의 2노드 SystemC 시뮬레이터, 그리고 gem5 풀 시스템 스캐폴드(full-system scaffold)라는 세 가지 계층으로 실현되었으며, 각 계층은 일치하는 OpenRoCE (RoCEv2 RC) 베이스라인을 갖추고 있습니다. 본 연구의 기여는 폐쇄형 실리콘에서는 허용되지 않는 구현, 테스트 하네스(harness), 그리고 통제된 비교를 제공한다는 점에 있습니다. 표준적인 64바이트 원격 페치(remote fetch) — UB 사양 섹션 8.3의 LOAD, RoCEv2 RC의 READ — 실험에서, UB의 로드/스토어 경로는 약 500ns의 엔드 투 엔드(end-to-end) 지연 시간을 제공하여 일치하는 베이스라인(2186ns)보다 4.37배 낮았으며, 2.80배 더 높은 처리량(throughput)을 유지하고, U50 LUT (Look-Up Table)의 약 14%만을 사용합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenURMA: Unified Bus 프로토콜의 클린룸 오픈 구현

요약

핵심 포인트

댓글