arXiv논문2026. 06. 16. 12:04

NYU Ultracomputer에서 현대적 엑사스케일(Exascale)까지: 인네트워크 컴퓨팅(In-Network Computing) 및 확장

요약

NYU Ultracomputer부터 현대 엑사스케일 시스템까지, 병렬 컴퓨팅 아키텍처와 네트워크 기술의 진화를 다룹니다. 인네트워크 컴퓨팅, 메시지 패싱, 하드웨어 동기화 메커니즘의 역사적 변천과 현대 딥러닝 하드웨어 매핑을 심도 있게 분석합니다.

핵심 포인트

NYU Ultracomputer와 IBM RP3를 통한 초기 병렬 시스템 설계 검토
NVIDIA SHARP 등 현대적 인네트워크 컴퓨팅 모델과 하드웨어 구현 비교
MPI 연산 및 RMA 원자적 연산의 저수준 하드웨어 매핑 분석
현대 딥러닝을 위한 소프트웨어-하드웨어 경계 및 양자화 실행 조사
동시성 소프트웨어 동기화 기술의 역사적 진화 과정 추적

본 논문은 지난 40년 동안 대규모 병렬 시스템을 형성해 온 하드웨어 아키텍처, 상호 연결 네트워크(interconnection networks), 그리고 동기화 프리미티브(synchronization primitives)에 대한 역사적 및 기술적 조사를 제시합니다. 우리는 NYU Ultracomputer와 IBM Research Parallel Processor Prototype (RP3)의 설계를 검토하며, 다단계 상호 연결 네트워크(multistage interconnection networks)에서 Fetch-and-Add 프리미티브의 하드웨어 구현에 초점을 맞춥니다. 우리는 세밀한(fine-grained) 공유 메모리(shared-memory) 하드웨어 결합을 시도했던 이러한 초기 시도들을 IBM SP 시리즈의 분산 메모리(distributed-memory) 아키텍처 및 NVIDIA SHARP와 HPE Slingshot에서 볼 수 있는 현대적인 인네트워크 컴퓨팅(in-network computation) 모델과 대조합니다. 우리는 메시지 패싱(message-passing) 동기화에 대한 기술적 분석을 제공하며, MPI 연산 빈도에 대한 완전한 프로파일링을 제시하고, 일방향(one-sided) RMA 원자적(atomics) 연산이 PCIe Atomics 및 GPU 캐시로 매핑되는 저수준 하드웨어 매핑을 상세히 설명합니다. 우리는 현대 딥러닝(deep learning)에서의 소프트웨어-하드웨어 경계를 조사하며, HIP 변환(translation), Triton 컴파일(compilation), 그리고 4비트 양자화(4-bit quantization, W4A16)가 현대의 이기종 실리콘(heterogeneous silicon)에서 어떻게 실행되는지 상세히 다룹니다. 대안적인 네트워크 노드 설계를 평가하기 위해, 우리는 Occam으로 프로그래밍된 메시지 패싱 Inmos Transputers를 사용하여 액티브 결합 스위치(active combining switches)를 구현하는 것의 타당성을 분석하는 역사적 하드웨어 사례 연구를 제시합니다. 마지막으로, Isaac Dimitrovsky의 병렬 "그룹 락(group lock)" 프리미티브를 조사하여 그룹 상호 배제(group mutual exclusion, GME) 및 룸 동기화(room synchronization)로 이어지는 흐름을 추적함으로써 동시성 소프트웨어 동기화의 진화를 맥락화하고, 미국의 시스템 엔지니어링(systems engineering)과 유럽의 형식 방법론(formal methods) 사이의 역사적, 철학적 차이에 대해 고찰합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NYU Ultracomputer에서 현대적 엑사스케일(Exascale)까지: 인네트워크 컴퓨팅(In-Network Computing) 및 확장

요약

핵심 포인트

댓글