본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 16:50

제로차 순화 (Zeroth-Order Optimization) 의 적응성 연구: 메모리 효율적 최적화기 제안

요약

본 논문은 메모리 제약이 있는 대규모 언어 모델(LLM)의 미세 조정 과정에서 적응형 제로차(ZO) 최적화 기법의 효율성을 연구했습니다. 기존 방식들이 주장하는 것과 달리, 저자들은 ZO-Adam 같은 적응형 방법이 수렴에 이점을 주지 않으면서도 메모리 오버헤드를 유발함을 입증했습니다. 이에 따라, 전역 스텝 크기 적응을 단일 스칼라로 추적하여 메모리 효율성을 극대화한 새로운 최적화기 MEAZO를 제안하고, 이론적 수렴 보장과 광범위한 실험을 통해 그 우수성을 검증했습니다.

핵심 포인트

  • LLM 미세 조정 시 적응형 제로차(ZO) 최적화의 메모리 비효율성 문제를 지적함.
  • 기존의 ZO-Adam 같은 적응형 방법은 수렴 이점 없이 상당한 메모리 오버헤드를 초래함을 분석적으로 증명함.
  • MEAZO라는 새로운 최적화기를 제안하여, 전역 스텝 크기 적응을 단일 스칼라로 추적함으로써 메모리 효율성을 확보함.
  • 제안된 MEAZO는 ZO-Adam의 성능과 ZO-SGD의 낮은 메모리 발자국을 동시에 달성함을 실험적으로 입증함.

우리는 메모리 제약이 있는 대규모 언어 모델 (LLM) 의 미세 조정 (fine-tuning) 에 대해 적응형 제로차 (ZO) 최적화의 효과를 조사합니다. 기존 주장과 달리, 우리는 ZO-Adam 과 같은 적응형 ZO 방법이 잘 튜닝된 ZO-SGD 보다 수렴에 대한 이점이 없음을 보여주며, 동시에 상당한 메모리 오버헤드를 초래함을 보여줍니다. 우리의 분석은 고차원 (high dimensions) 에서 ZO 경사도는 좌표별 불균질성 (coordinate-wise heterogeneity) 을 결여하여 적응형 메커니즘이 메모리 비효율적임을 드러냅니다. 이 통찰을 바탕으로, 전역 스텝 크기 적응에 단일 스칼라만 추적하는 메모리 효율적 적응형 ZO 최적화기인 MEAZO 를 제안합니다. 우리는 표준 가정 하에서 이론적 수렴 보장 (theoretical convergence guarantees) 을 제시하여 본 방법을 지원합니다. 여러 LLM 계열과 작업에 걸친 실험은 MEAZO 가 ZO-Adam 의 성능을 유지하면서 ZO-SGD 의 메모리 발자국을 가진다는 것을 보여줍니다. 합성 이차 함수 문제와 LLM 미세 조정에 대한 추가 실험은, 특히 그룹화 또는 블록 구조화된 최적화 설정에서 스텝 크기 선택에 대한 MEAZO 의 향상된 견고성을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0