arXiv논문2026. 06. 30. 13:59

1단계 그래디언트 지연은 대규모 비동기 파이프라인 병렬 LLM 사전 학습의 장애물이 아니다

요약

비동기 파이프라인 병렬성 학습 시 발생하는 그래디언트 지연 문제가 옵티마이저 선택에 따라 해결될 수 있음을 입증합니다. Muon과 같은 최신 옵티마이저와 에러 피드백 기법을 통해 동기식 학습 수준의 성능을 달성할 수 있음을 보여줍니다.

핵심 포인트

비동기 파이프라인 병렬성의 그래디언트 지연은 옵티마이저에 따라 영향이 다름
AdamW는 지연에 취약하지만 Muon은 강력한 강건성을 보임
에러 피드백(Error Feedback) 기반 보정 기법으로 지연 효과 완화 가능
최대 10B 규모 모델 실험을 통해 동기식 학습과의 성능 격차 해소 확인

현대의 대규모 LLM 사전 학습 (pretraining)은 파이프라인 병렬성 (Pipeline Parallelism)을 활용함으로써 이득을 얻습니다. 그러나 동기식 (synchronous) 구현은 파이프라인 버블 (pipeline bubbles) 동안 GPU를 유휴 상태로 만들어 계산 자원을 낭비합니다. 비동기 파이프라인 병렬성 (Asynchronous Pipeline Parallelism)은 이러한 버블을 제거하여 그래디언트 신선도 저하 (gradient staleness)를 대가로 처리량 (throughput)을 극대화합니다. 비동기 스케줄 중 PipeDream-2BW는 특히 매력적입니다. 기존 PipeDream 스케줄과 달리, 이는 파이프라인 깊이와 관계없이 일정한 1단계 그래디언트 지연 (one-step gradient delay)을 보장합니다. 하지만 신선도가 낮은 상태에서의 최적화는 근본적으로 불안정하다는 일반적인 믿음 때문에 그 채택은 여전히 제한적입니다. 본 연구에서 우리는 이러한 가설에 도전하며, 1단계 지연 하에서의 성능 저하가 내재적인 한계라기보다 옵티마이저 (optimizer) 선택에 강하게 의존한다는 것을 입증합니다. 우리는 PipeDream-2BW가 도입될 당시 지배적인 옵티마이저였던 AdamW는 실제로 심각한 성능 저하를 겪는 반면, Muon과 같은 최신 방법론은 1단계 지연 하에서도 강력한 강건성 (robustness)을 보인다는 것을 보여주는 최초의 포괄적인 실증적 분석을 제공합니다. 우리는 지연 효과를 더욱 완화하기 위해 옵티마이저에 구애받지 않는 에러 피드백 (Error Feedback) 기반의 보정 기법을 도입합니다. 우리는 이 보정 기법의 유무에 따른 Muon의 수렴을 입증하는 이론적 분석을 제공합니다. 최대 10B 파라미터 규모의 모델에 대한 광범위한 평가를 통해 우리의 전략이 동기식 학습과의 성능 격차를 해소함을 확인하였으며, 이는 대규모 환경에서 비동기 파이프라인 병렬성의 실질적인 잠재력을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

1단계 그래디언트 지연은 대규모 비동기 파이프라인 병렬 LLM 사전 학습의 장애물이 아니다

요약

핵심 포인트

댓글