arXiv논문2026. 05. 04. 19:49

AGoQ: 대규모 언어 모델 (LLM) 의 메모리 효율적 분산 훈련을 위한 활성화 및 경사 양자화

요약

AGoQ는 대규모 언어 모델(LLM)의 메모리 효율적인 분산 훈련을 위해 활성화와 경사 양자화 기술을 결합한 새로운 프레임워크입니다. 이 방법은 레이어별로 최적의 비트 폭을 할당하여 활성화를 거의 4-bit 수준으로 저장하고, 통신 시간을 줄이는 8-bit 경사 및 All-Reduce를 사용합니다. 실험 결과, AGoQ는 기존 최고 수준의 분산 훈련 시스템 대비 메모리를 최대 52% 절감하고 훈련 속도를 크게 향상시키면서도 모델 정확도를 유지할 수 있음을 입증했습니다.

핵심 포인트

AGoQ는 활성화(Activation)와 경사(Gradient) 양자화를 결합하여 LLM의 메모리 효율성을 극대화합니다.
활성화 측면에서 레이어 인식 알고리즘을 사용하여 최적의 비트 폭 할당으로 4-bit에 근접한 저장량을 달성했습니다.
경사 측면에서는 8-bit 저장을 통해 메모리를 절감하고, 정밀도 보존 All-Reduce 통신을 구현하여 병목 현상을 줄였습니다.
AGoQ는 Megatron-LM, DeepSpeed 등 기존 시스템 대비 최대 52%의 메모리 절감과 1.34배의 훈련 속도 향상을 보여주었습니다.

양자화 (Quantization) 는 대형 언어 모델 (LLMs) 의 GPU 메모리 요구량을 줄이는 핵심 방법입니다. 그러나 현재 접근 방식은 4-bit 활성화와 8-bit 경사에 대해 비효율적이며, 이는 수렴 속도 저하 또는 정확도 손상을 쉽게 초래합니다. 이를 해결하기 위해 우리는 두 가지 새로운 기술을 통합한 AGoQ 를 소개합니다: 1) 다양한 레이어의 활성화에 대한 적절한 비트 폭을 할당하여 거의 4-bit 활성화 저장량을 달성하는 레이어 인식 활성화 양자화 알고리즘 (layer-aware activation quantization algorithm), 이는 활성화의 종류와 파이프라인 단계를 기반으로 합니다. 2) 메모리 사용량을 줄이고 통신 시간을 단축하는 8-bit 경사 저장과 정밀도 보존 8-bit All-Reduce 통신을 사용하는 경사 양자화 알고리즘 (gradient quantization algorithm). 우리는 두 GPU 클러스터 (최대 64 GPU) 를 사용하여 다양한 크기의 LLM 을 실험적으로 수행했으며, 실험 결과는 AGoQ 가 Megatron-LM (w/ 또는 w/o ZeRO), COAT, DeepSpeed 와 같은 최첨단 훈련 시스템에 비해 메모리를 최대 52% 줄이고 8B 에서 32B LLaMA 모델로 훈련 속도를 1.34 배까지 개선하며, 사전 훈련의 수렴 손실과 다운스트림 작업의 비교 가능한 정확도를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

AGoQ: 대규모 언어 모델 (LLM) 의 메모리 효율적 분산 훈련을 위한 활성화 및 경사 양자화

요약

핵심 포인트

댓글