arXiv논문2026. 05. 08. 13:53

Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on

요약

본 논문은 대규모 언어 모델(LLM)의 텐서 병렬성(TP) 과정에서 발생하는 통신-계산 불일치 문제를 해결하기 위한 'Compute-Aware In-Switch 컴퓨팅' 프레임워크인 CAIS를 제안합니다. 기존의 인-스위치 컴퓨팅 솔루션은 통신 중심 설계로 인해 LLM 계산 커널의 메모리 요구사항과 충돌하여 자원 활용도와 오버랩에 한계가 있었습니다. CAIS는 Compute-Aware ISA 확장, 요청 병합 개선을 위한 Merge-Aware TB 좌표 사용, 그리고 그래프 수준 데이터플로우 옵티마이저를 통해 통신 모드가 계산의 메모리 의미 요구와 일치하도록 설계되어, 다중 GPU 시스템에서 LLM 훈련 속도를 크게 향상시킵니다.

핵심 포인트

CAIS는 Compute-Aware In-Switch 컴퓨팅을 구현하여 기존 솔루션의 한계를 극복합니다.
세 가지 핵심 기술(Compute-Aware ISA 확장, Merge-Aware TB 좌표, 그래프 수준 데이터플로우 옵티마이저)로 구성되어 있습니다.
LLM 워크로드 평가에서 SOTA NVLS 기반 솔루션 대비 1.38배, T3 대비 1.61배의 성능 향상을 입증했습니다.
통신과 계산 단계를 통합하여 다중 GPU 시스템에서의 자원 활용도와 오버랩을 극대화합니다.

대규모 LLM 추론 및 훈련에서 텐서 병렬성 (Tensor parallelism, TP) 은 빈번한 집합적 연산 (collective operations) 을 도입하여 GPU 간 통신을 지배합니다. In-Switch 컴퓨팅은 NVLink SHARP (NVLS) 과 같은 사례를 통해 불필요한 데이터 전송을 줄여 집합적 연산을 가속화하지만, 그 통신 중심 설계 철학은 LLM 의 계산 커널의 메모리 의미 요구와 통신 모드 간의 불일치를 초래합니다. 이러한 불일치는 계산 및 통신 단계를 격리하여 다 GPU 시스템에서 자원 활용도가 낮아지고 오버랩이 제한됩니다. 이 한계를 해결하기 위해, 우리는 통신 모드가 계산의 메모리 의미 요구와 일치하는 최초의 Compute-Aware In-Switch 컴퓨팅 프레임워크인 CAIS 를 제안합니다. CAIS 는 세 가지 핵심 기술로 구성됩니다: (1) Compute-Aware ISA 와 마이크로아키텍처 확장을 통해 Compute-Aware In-Switch 컴퓨팅을 가능하게 합니다. (2) Merge-Aware TB (Thread Block) 좌표를 통해 효율적인 요청 병합을 위한 시간적 정렬을 개선합니다. (3) 그래프 수준 데이터플로우 옵티마이저를 통해 긴 커널 간 오버랩을 달성합니다. LLM 워크로드 평가에서 CAIS 는 SOTA NVLS 기반 솔루션 대비 1.38 배의 평균 엔드 투 엔드 훈련 속도 향상, T3(SOTA 계산 - 통신 오버랩 솔루션) 대비 1.61 배의 성능 향상을 보여주며, NVLS 를 활용하지 않는 경우에도 TP 를 다 GPU 시스템에서 가속화하는 효과를 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on

요약

핵심 포인트

댓글