arXiv논문2026. 05. 21. 12:31

하이퍼파라미터 전이의 정량화 및 임베딩 레이어 학습률의 중요성

요약

본 논문은 대규모 언어 모델(LLMs) 학습에서 핵심적인 하이퍼파라미터 전이를 정량화하는 새로운 프레임워크를 제시합니다. 이 프레임워크는 스케일링 법칙 피팅 품질, 외삽 오차의 강건성, 그리고 매개변수화 선택에 따른 점근적 손실 페널티 세 가지 지표로 하이퍼파라미터 전이를 측정합니다. 연구 결과, Maximal Update ($μ$P)와 같은 특정 매개변수화가 표준 매개변수화(SP)보다 임베딩 레이어의 학습률을 최적화하여 하이퍼파라미터 전이를 크게 개선하고 학습 안정성을 높인다는 것을 입증했습니다.

핵심 포인트

하이퍼파라미터 전이는 LLMs 학습에서 중요한 요소이며, 이를 정량화하는 새로운 프레임워크가 개발되었다.
Maximal Update ($μ$P)는 표준 매개변수화(SP) 대비 임베딩 레이어의 학습률을 최적화하여 하이퍼파라미터 전이를 개선하고 학습 안정성을 높인다.
SP에서 임베딩 레이어 학습률은 학습 불안정성의 병목 현상을 유발할 수 있다.
가중치 감쇠(weight decay)는 스케일링 법칙 피팅을 개선하지만, 파라미터당 고정된 토큰 설정에서는 외삽의 강건성을 저해한다.

하이퍼파라미터 전이 (Hyperparameter transfer)는 최적의 최적화 하이퍼파라미터를 작은 규모에서 큰 규모로 외삽(extrapolating)할 수 있게 해주며, 이는 대규모 언어 모델 (LLMs) 학습에 있어 매우 중요합니다. 이는 하이퍼파라미터에 스케일링 법칙 (scaling law)을 적용하거나, 최적의 하이퍼파라미터를 대략적으로 스케일 불변 (scale invariant)하게 만드는 Maximal Update ($μ$P)와 같은 신중한 매개변수화 (parameterization) 선택을 통해 수행됩니다. 본 논문에서 우리는 먼저 세 가지 지표를 통해 하이퍼파라미터 전이를 정량화하는 프레임워크를 개발합니다: (1) 스케일링 법칙 피팅의 품질, (2) 외삽 오차에 대한 강건성 (robustness), (3) 매개변수화 선택으로 인한 점근적 손실 페널티 (asymptotic loss penalty). 다음으로, 기존 이론이 불충분한 상황에서 왜 $μ$P가 표준 매개변수화 (SP)에 비해 고품질의 학습률 전이를 제공하는 것처럼 보이는지를 종합적인 일련의 절제 연구 (ablations)를 통해 조사합니다. 우리는 AdamW로 학습할 때 SP 대비 $μ$P가 갖는 압도적인 이점이 단순히 임베딩 레이어 (embedding layer)의 학습률을 최대화하는 데서 발생한다는 것을 발견했습니다. SP에서 임베딩 레이어 학습률은 학습 불안정성을 유발하는 병목 현상으로 작용합니다. 이를 $μ$P와 일치하도록 너비 (width) 비율만큼 증가시키면 하이퍼파라미터 전이를 개선하는 동시에 학습을 극적으로 안정화합니다. 또한 우리는 가중치 감쇠 (weight decay)가 스케일링 법칙 피팅을 개선하는 반면, 파라미터당 고정된 토큰 (fixed token-per-parameter) 설정에서는 외삽의 강건성을 해친다는 것을 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

하이퍼파라미터 전이의 정량화 및 임베딩 레이어 학습률의 중요성

요약

핵심 포인트

댓글