SCENIC: 스트림 컴퓨팅 기반 차세대 SmartNIC 아키텍처
요약
AI 데이터센터의 핵심 인프라인 SmartNIC는 현재 상용 제품과 연구 프로토타입 간에 성능 및 유연성 격차를 겪고 있습니다. 본 논문에서 제안하는 SCENIC은 이 문제를 해결하기 위해 NIC 데이터패스를 '1급 스트림 컴퓨팅 기판'으로 접근합니다. SCENIC은 200G 네트워크 데이터패스, 온-데이터패스 Stream Compute Units (SCUs), 그리고 유연한 제어 경로를 위한 임베디드 ARM 코어를 결합하여 설계되었습니다. 이는 기존 애플리케이션에 투명하게 통합되면서도 사용자 정의 오프로드를 구현하고 프로그래밍이민
핵심 포인트
- SCENIC은 200G 네트워크 데이터패스, 오프로드 TCP/IP 및 RDMA 스택을 지원합니다.
- 온-데이터패스 Stream Compute Units (SCUs)를 활용하여 데이터 처리 기능을 확장했습니다.
- 임베디드 ARM 코어를 통해 유연한 제어 경로 조작과 GPU/SSD 직접 접근을 구현했습니다.
- Linux 네트워크 및 RDMA verb 인터페이스에 완전히 통합되어 기존 애플리케이션에 투명하게 작동합니다.
최신 AI 중심 데이터센터는 SmartNIC(Smart Network Interface Card)에 크게 의존하고 있지만, 현재 시장의 장치들은 명확한 트레이드오프를 가지고 있습니다. 상용 SmartNIC은 높은 대역폭과 쉬운 소프트웨어 통합을 제공하지만, 커스터마이징이나 데이터 처리 오프로드 측면에서 제한적입니다. 반면, 연구 단계의 SmartNIC는 낮은 대역폭, 기능 제한성, 그리고 열악한 소프트웨어 호환성을 보이는 경우가 많아 기술적으로 실제 NIC라 부르기 어려울 때도 있습니다.
SCENIC은 이러한 격차를 해소하기 위해 NIC 데이터패스를 '1급 스트림 컴퓨팅 기판(first-class stream computation substrate)'으로 취급합니다. 이를 통해 인프라와 애플리케이션을 긴밀하게 공동 설계(co-design)할 수 있는 공유 하드웨어/소프트웨어 추상화를 제공합니다.
SCENIC은 오픈 소스 데이터센터용 SmartNIC으로, 다음과 같은 핵심 구성 요소를 결합했습니다:
- 네트워크 데이터패스: 200G 네트워크 데이터패스를 구현하며, 오프로드 TCP/IP 및 RDMA 스택을 지원하고 임의의 네트워크 트래픽 처리를 위한 폴백 경로(fallback path)도 제공합니다.
- 데이터 처리 유닛 (SCUs): 온-데이터패스 Stream Compute Units (SCUs)를 결합하여 데이터 처리 능력을 강화했습니다. 이는 단순한 패킷 전달을 넘어 복잡한 연산을 NIC 레벨에서 수행할 수 있게 합니다.
- 제어 경로 및 확장성: 임베디드 ARM 코어를 활용하여 유연한 제어 경로 조작이 가능하며, GPU와 SSD에 직접 접근하는 기능을 제공합니다.
SCENIC의 가장 큰 장점은 이러한 강력한 프로그래밍 가능한 데이터패스임에도 불구하고 기존 운영체제(OS)와 완벽하게 통합된다는 점입니다. 이는 네이티브 Linux 네트워크 및 RDMA verb 인터페이스를 노출하여, 사용자 정의 오프로드나 프로그래밍 가능한 혼잡 제어(programmable congestion control) 같은 기능을 구현하면서도 기존 애플리케이션에는 투명성을 유지합니다.
실제 성능 테스트 결과, SCENIC은 상용 플랫폼과 동등한 성능을 보여주었으며, 집단 통신 오프로드(offloaded collective communication)나 네트워크-GPU 기반 해시 데이터 분할(network-to-GPU hash-based data partitioning) 같은 다양한 사용 사례를 통해 그 다재다능함을 입증했습니다. SCENIC은 차세대 AI 워크로드에 최적화된, 고성능의 개방형 인프라 솔루션입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기