LLM 사전 학습을 위한 로컬 통신(Local Communications)과 로컬 업데이트(Local Updates)의 통합
요약
분산된 컴퓨팅 환경에서 LLM 사전 학습의 통신 병목 현상을 해결하기 위한 새로운 알고리즘 GASLoC를 제안합니다. 가십 기반 통신과 로컬 업데이트를 결합하여 이질적인 네트워크 환경에서도 높은 효율성을 입증했습니다.
핵심 포인트
- 동기식 All-Reduce의 병목 현상을 해결하는 GASLoC 제안
- 가십 기반의 희소 무작위 피어 통신 활용
- 적응형 옵티마이저와 호환되는 분산형 학습 프레임워크
- 이질적인 대역폭 환경에서 DiLoCo 대비 우수한 성능
LLM(Large Language Models)의 학습이 클러스터, 데이터 센터 및 대역폭이 낮은 링크에 분산된 컴퓨팅 자원을 활용함에 따라, 통신 효율적인 사전 학습(Pre-training)의 중요성이 점점 커지고 있습니다. 많은 실질적인 방법들이 통신 빈도를 줄이려 노력하지만, 여전히 동일한 모델 상태를 유지하고 진행 상황을 글로벌 집합 연산(Global Collectives)에 종속시키는 동기식 All-Reduce 연산에 의존하고 있습니다. 이는 대역폭이나 작업자(Worker)의 속도가 이질적(Heterogeneous)일 때 병목 현상이 될 수 있습니다. 우리는 GASLoC를 소개합니다. 이는 통신 가속화의 개념을 최근 인기를 끌고 있는 "외부 옵티마이저(Outer Optimizer)"로 일반화하여, 적응형 옵티마이저(Adaptive Optimizers)와 호환되고, 로컬 옵티마이저 단계(Local Optimizer Steps)를 허용하며, 희소 무작위 피어 통신(Sparse Randomized Peer Communication)을 활용할 수 있는 실용적인 가십 기반(Gossip-based) 학습 프레임워크를 가능하게 하는 새로운 분산형 사전 학습 알고리즘입니다. 실증적으로, 우리는 여러 표준 LLM 학습 작업에서 GASLoC가 다양한 토폴로지(Topologies)의 통신당 단일 단계(Single Step per Communication) 설정에서 최첨단 분산 알고리즘보다 성능이 뛰어남을 입증했습니다. 또한 LLM 설정에서의 기존 분산 방식들과 달리, GASLoC는 여러 로컬 단계를 활용할 때 DiLoCo와 경쟁할 만한 성능을 얻을 수 있게 해줍니다. 이질적인 대역폭 설정에서도 우리는 GASLoC가 DiLoCo를 크게 능가할 수 있음을 보여줌으로써 그 장점을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기