BlockTrain을 이용한 분산형 AI 학습 및 추론
요약
Spheroid BlockTrain은 모델을 독립적인 블록으로 분할하여 학습하는 분산형 프로토콜을 제안합니다. 각 워커는 단일 블록만 학습하여 메모리 효율을 높이며, 추론 시에는 이를 결합하여 성능을 유지합니다. 실험 결과, 기존 Transformer 모델과 유사한 성능을 보이면서도 분산 환경에서의 효율성을 입증했습니다.
핵심 포인트
- 모델을 독립적 블록으로 분할하여 분산 학습 가능
- 각 워커가 단일 블록만 학습하여 옵티마이저 상태 부담 완화
- WikiText 벤치마크에서 참조 모델과 유사한 성능 달성
- WAN 환경에서도 효율적인 추론 파이프라인 제공
Frontier AI 학습은 점점 더 밀집되고 중앙 집중식으로 제어되는 가속기 클러스터에 대한 접근성에 의해 결정되고 있습니다. 이는 하이퍼스케일러(hyperscalers)와 대규모 중앙 집중식 연구소에 구조적 이점을 제공하며, 개방형 또는 독립적인 AI 노력을 희소한 자본, 특권적인 인프라 및 데이터 센터 지리적 위치에 의존하게 만듭니다. 우리는 Spheroid BlockTrain을 제시합니다. 이는 모델을 독립적으로 학습 가능한 블록(blocks)으로 분할하는 분산형 학습 프로토콜로, 각 블록은 동일한 글로벌 목표에서 파생된 로컬 목적 함수(local objective)에 대해 최적화되며 추론 시 하나의 모델로 결합됩니다. 바이트 수준의 WikiText에서 BlockTrain은 교차 엔트로피(cross entropy) 1.359(perplexity 3.89)에 도달하였으며, 이는 동일한 설정의 엔드 투 엔드(end-to-end) Transformer 참조 모델과 약 0.04 CE 차이 내에 있는 수치입니다. 이 과정에서 각 활성 워커(worker)는 단 하나의 블록만을 학습하며 전체 모델의 옵티마이저 상태(optimizer state)를 피할 수 있습니다. 6개의 워커를 공유하는 블록 학습 실행은 동일 블록 업데이트를 하나의 조립된 모델로 평균화함으로써 CE 1.385에 도달합니다. HTTP/TCP 전송 실험은 실제 직렬화된 체크포인트(checkpoints)와 업데이트를 이동시키며, 여기에는 15.22 GB를 이동하는 동안 CE를 5.580에서 1.811로 개선한 퍼블릭 IP 기반의 3개 호스트 실행이 포함됩니다. 추론의 경우, 현재의 BlockTrain 경로는 전체 출력당 하나의 블록 스택 순회(block-stack traversal)를 사용하며, 최대 75.80B 파라미터의 논리적 fp16 형상에 대해 3개의 퍼블릭 네트워크 GPU 호스트를 통해 직접 TCP로 서비스를 제공합니다. 이는 순회당 하나의 토큰을 생성하는 대신 WAN 파이프라인 순회당 전체 시퀀스를 방출하기 때문에, 매칭된 일반 자기회귀(plain-autoregressive) TCP 파이프라인 베이스라인보다 성능이 뛰어납니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기