본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 13:53

Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on

요약

본 논문은 대규모 언어 모델(LLM)의 텐서 병렬성(TP) 과정에서 발생하는 통신-계산 불일치 문제를 해결하기 위한 'Compute-Aware In-Switch 컴퓨팅' 프레임워크인 CAIS를 제안합니다. 기존의 인-스위치 컴퓨팅 솔루션은 통신 중심 설계로 인해 LLM 계산 커널의 메모리 요구사항과 충돌하여 자원 활용도와 오버랩에 한계가 있었습니다. CAIS는 Compute-Aware ISA 확장, 요청 병합 개선을 위한 Merge-Aware TB 좌표 사용, 그리고 그래프 수준 데이터플로우 옵티마이저를 통해 통신 모드가 계산의 메모리 의미 요구와 일치하도록 설계되어, 다중 GPU 시스템에서 LLM 훈련 속도를 크게 향상시킵니다.

핵심 포인트

  • CAIS는 Compute-Aware In-Switch 컴퓨팅을 구현하여 기존 솔루션의 한계를 극복합니다.
  • 세 가지 핵심 기술(Compute-Aware ISA 확장, Merge-Aware TB 좌표, 그래프 수준 데이터플로우 옵티마이저)로 구성되어 있습니다.
  • LLM 워크로드 평가에서 SOTA NVLS 기반 솔루션 대비 1.38배, T3 대비 1.61배의 성능 향상을 입증했습니다.
  • 통신과 계산 단계를 통합하여 다중 GPU 시스템에서의 자원 활용도와 오버랩을 극대화합니다.

대규모 LLM 추론 및 훈련에서 텐서 병렬성 (Tensor parallelism, TP) 은 빈번한 집합적 연산 (collective operations) 을 도입하여 GPU 간 통신을 지배합니다. In-Switch 컴퓨팅은 NVLink SHARP (NVLS) 과 같은 사례를 통해 불필요한 데이터 전송을 줄여 집합적 연산을 가속화하지만, 그 통신 중심 설계 철학은 LLM 의 계산 커널의 메모리 의미 요구와 통신 모드 간의 불일치를 초래합니다. 이러한 불일치는 계산 및 통신 단계를 격리하여 다 GPU 시스템에서 자원 활용도가 낮아지고 오버랩이 제한됩니다. 이 한계를 해결하기 위해, 우리는 통신 모드가 계산의 메모리 의미 요구와 일치하는 최초의 Compute-Aware In-Switch 컴퓨팅 프레임워크인 CAIS 를 제안합니다. CAIS 는 세 가지 핵심 기술로 구성됩니다: (1) Compute-Aware ISA 와 마이크로아키텍처 확장을 통해 Compute-Aware In-Switch 컴퓨팅을 가능하게 합니다. (2) Merge-Aware TB (Thread Block) 좌표를 통해 효율적인 요청 병합을 위한 시간적 정렬을 개선합니다. (3) 그래프 수준 데이터플로우 옵티마이저를 통해 긴 커널 간 오버랩을 달성합니다. LLM 워크로드 평가에서 CAIS 는 SOTA NVLS 기반 솔루션 대비 1.38 배의 평균 엔드 투 엔드 훈련 속도 향상, T3(SOTA 계산 - 통신 오버랩 솔루션) 대비 1.61 배의 성능 향상을 보여주며, NVLS 를 활용하지 않는 경우에도 TP 를 다 GPU 시스템에서 가속화하는 효과를 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0