분산 사전 학습의 안정성 확보: Decoupled DiLoCo 소개
요약
기존 대규모 언어 모델(LLM) 사전 학습은 단일 프로그램 다중 데이터 (SPMD) 패러다디지에 의존하여, 장치 간의 강한 결합으로 인해 일시적인 지연이나 하드웨어 오류 발생 시 전체 계산이 중단되는 취약점을 가집니다. 본 논문에서 제안하는 Decoupled DiLoCo는 이러한 동기식(synchronous) 병목 현상을 해결하기 위해 DiLoCo 프레임워크를 개선했습니다. 이는 컴퓨팅을 여러 독립적인 '러너(learners)'로 분할하여, 이들이 비동기적으로 파라미터 조각을 중앙 동기화기에 전송하게 합니다. 최소 쿼럼(quorum
핵심 포인트
- Decoupled DiLoCo는 기존의 SPMD (Single Program Multiple Data) 패러다디지가 가진 강한 결합 문제를 해결하여, 시스템 오류나 지연에 강인한 분산 사전 학습 방식을 제시합니다.
- 핵심은 컴퓨팅을 독립적인 '러너(learners)'로 나누고, 이들이 중앙 동기화기에 비동기적으로 파라미터 조각을 전송하도록 설계했다는 점입니다.
- 최소 쿼럼(minimum quorum), 적응형 유예 시간(adaptive grace window), 그리고 토큰 가중치 병합(dynamic token-weighted merging) 기법을 사용하여 실패하거나 지연되는 러너에 영향을 받지 않고 업데이트를 집계합니다.
- 카오스 엔지니어링 (chaos engineering) 원리를 적용하여, 수백만 개의 시뮬레이션 칩 환경에서 전역 다운타임 없이 높은 학습 효율성을 입증했습니다.
최신 대규모 언어 모델(LLM)의 사전 학습은 대부분 단일 프로그램 다중 데이터 (SPMD: Single Program Multiple Data) 패러다디지에 크게 의존합니다. 이 방식은 여러 가속기(accelerators) 간에 매우 강한 결합(tight coupling)을 요구한다는 특징이 있습니다.
문제는 이러한 강한 결합성 때문에, 시스템에서 발생하는 일시적인 지연(transient slowdowns), 하드웨어 오류(hardware failures), 또는 동기화 오버헤드만으로도 전체 계산 과정이 멈추게 되어 막대한 컴퓨팅 자원과 시간을 낭비한다는 점입니다. 최근 DiLoCo와 같은 분산 학습 방법들이 통신 대역폭을 줄이는 데는 성공했지만, 근본적으로 여전히 동기식(synchronous) 구조를 유지하고 있어 이러한 시스템 중단 현상에 취약점을 안고 있었습니다.
이에 본 연구에서는 Decoupled DiLoCo를 제안합니다. 이는 기존 DiLoCo 프레임워크의 진화 버전으로, '락-스텝 동기화(lock-step synchronization)' 장벽을 깨고 SPMD 패러다디어를 넘어선 분산 학습 방식을 구현하여 트레이닝의 처리량(goodput)을 극대화하는 것을 목표로 합니다.
Decoupled DiLoCo의 핵심은 컴퓨팅 작업을 여러 개의 독립적인 **'러너(learners)'**로 분할하는 것입니다. 각 러너는 로컬 내부 최적화 단계(local inner optimization steps)를 수행하며, 이들이 중앙 동기화기(central synchronizer)에 파라미터 조각(parameter fragments)을 비동기적으로 전송합니다.
이러한 비동기적 접근 방식은 시스템의 안정성을 혁신적으로 개선합니다. 특히, 최소 쿼럼(minimum quorum), 적응형 유예 시간(adaptive grace window), 그리고 동적 토큰 가중치 병합(dynamic token-weighted merging)과 같은 메커니즘을 활용하여, 일부 러너가 실패하거나 지연되더라도 전체 업데이트 집계에 영향을 주지 않습니다.
연구진은 **카오스 엔지니어링 (chaos engineering)**에서 영감을 받아 이 시스템의 견고성을 입증했습니다. 수백만 개의 시뮬레이션 칩 환경을 가정하고 테스트한 결과, 전역적인 다운타임(global downtime) 없이도 매우 높은 학습 효율성을 달성할 수 있음을 보여주었습니다. 또한, 본 방법은 일반 텍스트 및 비전 작업뿐만 아니라, 밀집형(dense) 아키텍처와 전문가 혼합 모델(Mixture-of-Expert, MoE) 같은 복잡한 구조에서도 경쟁력 있는 모델 성능을 유지함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기