Eidola: 분산 AI 워크로드에서의 멀티-GPU 네트워크 통신 트래픽 모델링
요약
분산 AI 워크로드의 멀티-GPU 네트워크 통신 트래픽을 정밀하게 모델링하는 시뮬레이션 프레임워크 Eidola를 소개합니다. gem5를 확장하여 사이클 수준의 정밀도로 피어 투 피어 GPU 통신과 동기화 동작을 에뮬레이션할 수 있습니다.
핵심 포인트
- 멀티-GPU 시스템의 불규칙한 통신 트래픽 패턴 모델링 가능
- gem5 기반의 확장 가능한 시뮬레이션 프레임워크 Eidola 제안
- 실제 애플리케이션 프로파일을 활용한 사이클 수준의 정밀도 구현
- 커널 퓨전 및 동기화 메커니즘에 따른 성능 분석 지원
분산 AI 워크로드의 규모가 커짐에 따라, 대규모 모델 학습을 위해 멀티-GPU (multi-GPU) 시스템이 필수적이 되었습니다. 커널 퓨전 (kernel fusion) 및 연산과 통신의 오버랩 (overlapping)과 같은 기술들이 지연 시간을 줄이는 데 도움을 주지만, 이들은 기존 도구로는 모델링하기 어려운 불규칙하고 일시적인 트래픽 패턴을 유발하기도 합니다. 이러한 기술들은 미세한 동기화 (fine-grained synchronization) 및 피어 투 피어 (peer-to-peer) 통신에 크게 의존하며, 이는 인터커넥트 (interconnect) 대역폭과 지연 시간 (latency)에 상당한 압박을 가합니다. 본 연구에서는 inter-GPU 통신 트래픽의 상세한 모델링을 가능하게 하는 gem5 시뮬레이션 프레임워크의 확장 가능한 확장판인 Eidola를 소개합니다. 이 확장 기능은 우리의 GPU 모델이 트래픽 모델링에 필요한 최소한의 특성을 에뮬레이션하는 간결한 에이돌론 (eidolon) 역할을 하기 때문에 확장성을 갖습니다. Eidola는 실제 애플리케이션에서 추출한 주석이 달린 타이밍 프로파일 (timing profiles)을 사용하여 사이클 수준의 정밀도로 피어 투 피어 GPU 쓰기 (peer-to-peer GPU writes)를 에뮬레이션합니다. 이를 통해 연구자들은 대규모 멀티-GPU 구성 전반의 동기화 동작을 시뮬레이션하고 분석할 수 있습니다. 이 시뮬레이터는 GPU별로 설정 가능한 트래픽 패턴을 지원하며, 다양한 통신 시나리오 하에서 격리된 성능 분석을 가능하게 합니다. 우리는 퓨즈드 커널 (fused kernel) 실행의 가변성을 재현하고, SyncMon에서 영감을 얻은 동기화 메커니즘을 구현함으로써 폴링 (polling) 관련 메모리 트래픽의 감소를 확인하여 Eidola의 효과를 입증했습니다. 우리의 결과는 Eidola가 inter-GPU 통신을 연구하기 위한 유연하고 확장 가능한 플랫폼을 제공하며, 현대적인 분산 GPU 시스템에서의 아키텍처 탐색을 지원함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기