본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 12:31

하이퍼파라미터 전이의 정량화 및 임베딩 레이어 학습률의 중요성

요약

본 논문은 대규모 언어 모델(LLMs) 학습에서 핵심적인 하이퍼파라미터 전이를 정량화하는 새로운 프레임워크를 제시합니다. 이 프레임워크는 스케일링 법칙 피팅 품질, 외삽 오차의 강건성, 그리고 매개변수화 선택에 따른 점근적 손실 페널티 세 가지 지표로 하이퍼파라미터 전이를 측정합니다. 연구 결과, Maximal Update ($μ$P)와 같은 특정 매개변수화가 표준 매개변수화(SP)보다 임베딩 레이어의 학습률을 최적화하여 하이퍼파라미터 전이를 크게 개선하고 학습 안정성을 높인다는 것을 입증했습니다.

핵심 포인트

  • 하이퍼파라미터 전이는 LLMs 학습에서 중요한 요소이며, 이를 정량화하는 새로운 프레임워크가 개발되었다.
  • Maximal Update ($μ$P)는 표준 매개변수화(SP) 대비 임베딩 레이어의 학습률을 최적화하여 하이퍼파라미터 전이를 개선하고 학습 안정성을 높인다.
  • SP에서 임베딩 레이어 학습률은 학습 불안정성의 병목 현상을 유발할 수 있다.
  • 가중치 감쇠(weight decay)는 스케일링 법칙 피팅을 개선하지만, 파라미터당 고정된 토큰 설정에서는 외삽의 강건성을 저해한다.

하이퍼파라미터 전이 (Hyperparameter transfer)는 최적의 최적화 하이퍼파라미터를 작은 규모에서 큰 규모로 외삽(extrapolating)할 수 있게 해주며, 이는 대규모 언어 모델 (LLMs) 학습에 있어 매우 중요합니다. 이는 하이퍼파라미터에 스케일링 법칙 (scaling law)을 적용하거나, 최적의 하이퍼파라미터를 대략적으로 스케일 불변 (scale invariant)하게 만드는 Maximal Update ($μ$P)와 같은 신중한 매개변수화 (parameterization) 선택을 통해 수행됩니다. 본 논문에서 우리는 먼저 세 가지 지표를 통해 하이퍼파라미터 전이를 정량화하는 프레임워크를 개발합니다: (1) 스케일링 법칙 피팅의 품질, (2) 외삽 오차에 대한 강건성 (robustness), (3) 매개변수화 선택으로 인한 점근적 손실 페널티 (asymptotic loss penalty). 다음으로, 기존 이론이 불충분한 상황에서 왜 $μ$P가 표준 매개변수화 (SP)에 비해 고품질의 학습률 전이를 제공하는 것처럼 보이는지를 종합적인 일련의 절제 연구 (ablations)를 통해 조사합니다. 우리는 AdamW로 학습할 때 SP 대비 $μ$P가 갖는 압도적인 이점이 단순히 임베딩 레이어 (embedding layer)의 학습률을 최대화하는 데서 발생한다는 것을 발견했습니다. SP에서 임베딩 레이어 학습률은 학습 불안정성을 유발하는 병목 현상으로 작용합니다. 이를 $μ$P와 일치하도록 너비 (width) 비율만큼 증가시키면 하이퍼파라미터 전이를 개선하는 동시에 학습을 극적으로 안정화합니다. 또한 우리는 가중치 감쇠 (weight decay)가 스케일링 법칙 피팅을 개선하는 반면, 파라미터당 고정된 토큰 (fixed token-per-parameter) 설정에서는 외삽의 강건성을 해친다는 것을 발견했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0