arXiv논문2026. 05. 19. 13:20

런타임 가변성 환경에서의 파이프라인 병렬 학습을 위한 준비도 기반 런타임

요약

대규모 모델 학습 시 발생하는 런타임 가변성 문제를 해결하기 위해, 작업의 준비도에 따라 스케줄을 유연하게 처리하는 RRFP(Runtime-Readiness-First Pipeline)를 제안합니다. RRFP는 기존의 정적 스케줄링 방식 대신 비구속적 힌트 순서를 사용하여 스테이지 불일치와 유휴 버블을 최소화합니다. 실험 결과, Megatron 기반 환경에서 언어 및 멀티모달 워크로드 모두 기존 방식 대비 최대 2.77배의 성능 향상을 달성했습니다.

핵심 포인트

기존 파이프라인 병렬 학습의 정적 스케줄링이 가진 런타임 가변성 및 유휴 버블 문제 지적
스케줄을 강제 순서가 아닌 비구속적 힌트로 취급하는 RRFP 프레임워크 제안
메시지 기반 비동기 통신과 경량 텐서 병렬 조정 기술 결합
언어 전용 워크로드에서 최대 1.77배, 멀티모달 워크로드에서 최대 2.77배 속도 향상 입증

파이프라인 병렬성 (Pipeline parallelism)은 대규모 모델 학습을 확장하기 위한 핵심 기술이지만, 현대의 워크로드 (workloads)는 연산 및 통신 측면에서 런타임 가변성 (runtime variability)을 나타냅니다. 기존의 파이프라인 시스템은 일반적으로 정적 (static), 프로파일링된 (profiled), 또는 적응적으로 생성된 스케줄 (schedules)을 사전에 약속된 실행 순서로 소비합니다. 실제 작업의 준비도 (task readiness)가 사전에 약속된 순서와 어긋날 경우, 다른 실행 가능한 작업이 있음에도 불구하고 스테이지 (stages)가 아직 준비되지 않은 작업을 기다리게 되어, 스테이지 불일치 (stage misalignment), 유휴 버블 (idle bubbles), 그리고 활용도 저하를 초래할 수 있습니다.

본 논문에서는 파이프라인 병렬 학습을 위한 준비도 기반 런타임인 RRFP (Runtime-Readiness-First Pipeline)를 제안합니다. RRFP는 런타임에서 스케줄을 소비하는 방식을 변경합니다. 즉, 스케줄을 스테이지가 따라야만 하는 대기 순서로 취급하는 대신, 현재 준비된 작업의 순위를 매기기 위한 비구속적 힌트 순서 (non-binding hint order)로 취급합니다. 이 모델을 지원하기 위해 RRFP는 메시지 기반 비동기 통신 (message-driven asynchronous communication), 집합적 일관성 (collective consistency)을 위한 경량 텐서 병렬 조정 (lightweight tensor-parallel coordination), 그리고 낮은 오버헤드의 디스패치 (dispatch)를 위한 준비 세트 중재 (ready-set arbitration)를 결합합니다.

우리는 Megatron 기반 학습 프레임워크에 RRFP를 구현하였으며, 최대 128개의 GPU 환경에서 언어 전용 (language-only) 및 멀티모달 (multimodal) 워크로드를 통해 이를 평가했습니다. RRFP는 모든 설정에서 고정 순서 파이프라인 베이스라인 (fixed-order pipeline baselines)보다 성능을 개선합니다. BFW 힌트를 사용할 경우, RRFP는 언어 전용 워크로드에서 최대 1.77배, 멀티모달 워크로드에서 최대 2.77배의 속도 향상을 달성합니다. 프레임워크 간 비교에서, 기본 BF 힌트를 사용하는 RRFP는 학습의 정확성 (training correctness)을 유지하면서도 기존의 더 빠른 외부 시스템보다 최대 1.84배 더 나은 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

런타임 가변성 환경에서의 파이프라인 병렬 학습을 위한 준비도 기반 런타임

요약

핵심 포인트

댓글