arXiv논문2026. 05. 04. 18:51

AdaMeZO: LLM 튜닝용 메모리 유지 없이 Adam 스타일 제로스 오더 옵티마이저

요약

AdaMeZO는 대규모 언어 모델(LLM)의 파인튜닝 과정에서 발생하는 높은 GPU 메모리 요구 문제를 해결하기 위해 제안된 새로운 옵티마이저입니다. 기존의 Adam과 같은 표준 옵티마이저는 모멘트 추정을 위해 많은 메모리를 필요로 하며, MeZO와 같은 효율적인 방법은 손실 지형 탐색 능력이 부족하다는 단점이 있었습니다. AdaMeZO는 메모리에 모멘트를 유지하지 않으면서도 Adam 스타일의 1차 및 2차 모멘트 추정 기능을 활용하여, 높은 성능과 낮은 메모리 요구량을 동시에 달성하는 것을 목표로 합니다.

핵심 포인트

AdaMeZO는 LLM 파인튜닝 시 발생하는 GPU 메모리 제약을 해결하기 위해 설계된 옵티마이저입니다.
기존의 Adam 기반 옵티마이저는 모멘트 추정 과정에서 많은 메모리를 요구하여 MeZO의 효율성을 저해했습니다.
AdaMeZO는 모멘트를 메모리에 저장하지 않으면서도 Adam 스타일의 1차 및 2차 모멘트 추정을 가능하게 합니다.
광범위한 실험 결과, AdaMeZO는 기존 MeZO보다 우수한 성능을 보이며 최대 70% 적은 Forward passes를 요구합니다.

LLM (Large Language Model) 의 Fine-tuning 은 다양한 전용 다운스트림 작업에 필수적이지만, 고전적인 Backpropagation 기반 Fine-tuning 방법은 상당한 GPU 메모리를 요구합니다. 이를 위해 최근 MeZO 라는 작업이 LLM 을 Fine-tune 하는데forward passes 만 의존하여 GPU 요구량을 크게 줄였으나, 손실 지형 (loss landscape) 에 무관함으로 인해 수렴 속도가 느려지는 단점이 있습니다. 표준 솔루션인 Adam 은 모델의 차원 이동에 낮은 곡률과 반대로 높은 곡률을 고려하며 1 차 및 2 차 모멘트를 추정하여 메모리에 저장함으로써 손실 지형을 탐색합니다. 그러나 Adam 을 직접 적용하면 MeZO 의 장점을 무효화하고 메모리 요구량을 3 배로 증가시킵니다. 이에 따라, 메모리에 모멘트를 유지하지 않고도 Adam 스타일 1 차 및 2 차 모멘트 추정을 활용하는 제로스 옵티마이저인 AdaMeZO 를 제안합니다. 우리는 AdaMeZO 의 이론적 분석을 제시하며, Extensive experiments(광범위한 실험) 를 통해 AdaMeZO 의 성능을 입증했습니다. 결과적으로 AdaMeZO 는 MeZO 보다 우수한 성능을 보이며 최대 $70%$ 적은 Forward passes 를 요구함을 보여줍니다. Trajectory visualizations (경로 시각화) 은 AdaMeZO 가 다양한 손실 지형에 적응할 수 있음을 확인합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AdaMeZO: LLM 튜닝용 메모리 유지 없이 Adam 스타일 제로스 오더 옵티마이저

요약

핵심 포인트

댓글