arXiv논문2026. 05. 01. 15:26

ZipCCL: LLM 학습을 위한 통신 콜렉티브의 효율적인 무손실 데이터 압축

요약

대규모 언어 모델(LLM)의 분산 학습에서 통신 오버헤드는 주요 병목 현상입니다. 본 논문은 LLM의 활성화, 기울기 및 파라미터가 가우시안 분포를 따른다는 점에 착안하여, 무손실 압축 라이브러리인 ZipCCL을 제안합니다. ZipCCL은 지수 코딩, GPU 최적화 커널, 적응형 통신 전략 등 혁신적인 기술을 결합하여, 모델 품질 저하 없이 엔드투엔드 학습 속도를 크게 향상시킵니다.

핵심 포인트

LLM 분산 학습의 주요 병목 현상은 통신 오버헤드이다.
ZipCCL은 LLM 데이터가 가우시안 분포를 따른다는 특성을 활용하여 무손실 압축을 수행한다.
핵심 기술로는 지수 코딩, GPU 최적화 커널, 그리고 워크로드에 따라 동적으로 전환하는 적응형 통신 전략이 포함된다.
64-GPU 클러스터 테스트 결과, ZipCCL은 통신 시간을 최대 1.35배 줄이고 학습 속도를 최대 1.18배 향상시켰다.

통신은 대규모 언어 모델 (LLM) 의 분산 학습에서 중요한 병목 현상으로 부상했습니다. 통신 오버헤드를 줄이기 위해 수많은 접근법이 제안되었지만, 압축과 해압축이 일반적으로 감소된 통신 트래픽의 이점보다 더 큰 오버헤드를 소비하기 때문에 무손실 압축의 잠재력은 여전히 크게 탐구되지 않았습니다. 우리는 학습 중 활성화 (activations), 기울기 (gradients) 및 파라미터 (parameters) 를 포함한 통신 데이터가 종종 근사 가우시안 분포를 따른다는 것을 관찰했습니다. 이는 데이터 압축을 위한 핵심 특징입니다. 따라서 우리는 LLM 학습용 콜렉티브의 무손실 압축 라이브러리인 ZipCCL 을 소개합니다. ZipCCL 은 다음과 같은 새로운 기술로 구비되어 있습니다: (1) LLM 텐서의 가우시안 분포를 활용하여 고비용 온라인 통계를 사용하지 않고도 압축을 가속화하는 이론적으로 근거된 지수 코딩 (exponent coding), (2) 통신 인식 데이터 레이아웃 (communication-aware data layout) 을 사용하여 메모리 접근 패턴과 파이프라인을 신중하게 설계한 GPU 최적화된 압축 및 해압축 커널, (3) 워크로드 패턴과 시스템 특성에 따라 콜렉티브 연산을 동적으로 전환하는 적응형 통신 전략입니다. mixture-of-experts 와 dense transformer 모델을 모두 사용한 64-GPU 클러스터에서 평가한 결과, ZipCCL 은 통신 시간을 최대 1.35 배 줄이고 모델 품질에 영향을 주지 않으면서 엔드투엔드 학습 속도를 최대 1.18 배 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

ZipCCL: LLM 학습을 위한 통신 콜렉티브의 효율적인 무손실 데이터 압축

요약

핵심 포인트

댓글