arXiv논문2026. 06. 30. 10:50

LLM 학습을 위한 학습률 스케일링의 비선형성에 대하여

요약

LLM 학습 시 모델 크기와 데이터 규모에 따른 최적 학습률의 비선형적 스케일링 법칙을 분석합니다. 기존의 로그-선형 가정 대신 유효 학습률(effective learning rate)과 데이터 규모 기반 외삽을 통해 더 정확한 학습률 전이가 가능함을 입증합니다.

핵심 포인트

최적 학습률은 모델 규모 증가 시 상향 곡률을 보이는 비선형적 특성을 가짐
기존 로그-선형 스케일링 법칙은 대규모 모델 예측 시 부정확할 수 있음
유효 학습률 개념과 데이터 규모(D) 기반 외삽을 통해 비선형성 문제 해결 가능
가중치 정규화 수렴 속도와 스텝 크기 간의 상관관계 규명

학습률 전이 (Learning-rate transfer)는 대규모 언어 모델 (LLM) 학습 비용을 절감할 수 있습니다. 즉, 목표 규모에서 학습률을 전수 조사 (sweeping)하는 대신, 실무자들은 더 작은 규모의 실행 결과로부터 외삽 (extrapolate)을 수행합니다. 기존 방식들은 종종 최적 학습률이 데이터 규모 및 모델 크기에 따라 로그-선형 스케일링 법칙 (log-linear scaling law)을 따른다고 가정합니다. 우리는 이 스케일링 법칙을 면밀히 검토하고 평가합니다. 22M에서 707M 파라미터 규모의 GPT-2 스타일 모델을 5B에서 100B 토큰으로 학습시킨 경험적 연구에서, 최적 학습률은 더 큰 규모에서 상향 곡률 (upward curvature)을 형성하며, 이는 부정확한 외삽으로 이어집니다. 우리는 학습률을 유효 학습률 (effective learning rate, 정규화된 가중치 공간에서의 스텝 크기)로 대체하고, 모델 크기 $N$ 외삽 대신 데이터 $D$ 외삽을 사용할 때 이 곡률이 크게 사라진다는 것을 발견했습니다. 다음으로, 우리는 스케일링의 비선형성을 설명합니다: 최적 학습률이 작을 때 가중치 정규화 (weight-norm)는 평형 상태로 더 느리게 수렴하며, 과도기 (transient phase)를 줄이기 위해 더 큰 스텝 크기를 필요로 합니다. 유효 학습률을 직접 제어하는 AdamH를 이용한 실험은 이러한 설명을 더욱 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 학습을 위한 학습률 스케일링의 비선형성에 대하여

요약

핵심 포인트

댓글