본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 10:50

LLM 학습을 위한 학습률 스케일링의 비선형성에 대하여

요약

LLM 학습 시 모델 크기와 데이터 규모에 따른 최적 학습률의 비선형적 스케일링 법칙을 분석합니다. 기존의 로그-선형 가정 대신 유효 학습률(effective learning rate)과 데이터 규모 기반 외삽을 통해 더 정확한 학습률 전이가 가능함을 입증합니다.

핵심 포인트

  • 최적 학습률은 모델 규모 증가 시 상향 곡률을 보이는 비선형적 특성을 가짐
  • 기존 로그-선형 스케일링 법칙은 대규모 모델 예측 시 부정확할 수 있음
  • 유효 학습률 개념과 데이터 규모(D) 기반 외삽을 통해 비선형성 문제 해결 가능
  • 가중치 정규화 수렴 속도와 스텝 크기 간의 상관관계 규명

학습률 전이 (Learning-rate transfer)는 대규모 언어 모델 (LLM) 학습 비용을 절감할 수 있습니다. 즉, 목표 규모에서 학습률을 전수 조사 (sweeping)하는 대신, 실무자들은 더 작은 규모의 실행 결과로부터 외삽 (extrapolate)을 수행합니다. 기존 방식들은 종종 최적 학습률이 데이터 규모 및 모델 크기에 따라 로그-선형 스케일링 법칙 (log-linear scaling law)을 따른다고 가정합니다. 우리는 이 스케일링 법칙을 면밀히 검토하고 평가합니다. 22M에서 707M 파라미터 규모의 GPT-2 스타일 모델을 5B에서 100B 토큰으로 학습시킨 경험적 연구에서, 최적 학습률은 더 큰 규모에서 상향 곡률 (upward curvature)을 형성하며, 이는 부정확한 외삽으로 이어집니다. 우리는 학습률을 유효 학습률 (effective learning rate, 정규화된 가중치 공간에서의 스텝 크기)로 대체하고, 모델 크기 $N$ 외삽 대신 데이터 $D$ 외삽을 사용할 때 이 곡률이 크게 사라진다는 것을 발견했습니다. 다음으로, 우리는 스케일링의 비선형성을 설명합니다: 최적 학습률이 작을 때 가중치 정규화 (weight-norm)는 평형 상태로 더 느리게 수렴하며, 과도기 (transient phase)를 줄이기 위해 더 큰 스텝 크기를 필요로 합니다. 유효 학습률을 직접 제어하는 AdamH를 이용한 실험은 이러한 설명을 더욱 뒷받침합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0