PowLU: LLM의 안정적인 사전 학습을 위한 활성화 함수
요약
SwiGLU 활성화 함수가 저정밀도 LLM 학습 시 유발하는 수치적 불안정성 문제를 해결하기 위해 새로운 PowLU를 제안합니다. PowLU는 유리 거듭제곱 함수를 통해 적응형 비선형성을 구현하여 모델의 표현력을 높이고 학습 안정성을 개선합니다.
핵심 포인트
- SwiGLU의 이차 증폭으로 인한 수치적 불안정성 해결
- PowLU를 통한 적응형 비선형성 및 표현 능력 향상
- 스케일링 법칙 실험을 통한 모델 크기별 성능 일관성 확인
- 7.9B 및 124B 모델 실험에서 SwiGLU 대비 경쟁력 입증
- 대규모 LLM 사전 학습의 확장성 개선
현대의 대규모 언어 모델 (LLMs)에서는 정보 흐름을 조절하고 비선형성 (non-linearity)을 도입하기 위해 Swish-gated Linear Unit (SwiGLU) 활성화 함수가 널리 채택되고 있습니다. 큰 양수 입력에 대해, SwiGLU는 이차 함수 $x^2$에 근사하여 강력한 비선형성과 표현 능력 (expressive capacity)을 제공합니다. 그러나 이러한 특성은 입력값이나 모델 규모가 커짐에 따라, 특히 저정밀도 (low-precision) LLM 학습에서 수치적 불안정성 (numerical instability)을 유발하기도 합니다. 주요 원인은 근사적인 이차 증폭 (quadratic amplification)으로 인해 출력 범위가 커지고 이상치 (outliers)가 악화되기 때문입니다. 이 문제를 해결하기 위해, 우리는 대규모 LLM 사전 학습 (pre-training)을 위한 안정적인 활성화 함수인 Power Linear Unit (PowLU)를 제안합니다. 구체적으로, PowLU는 유리 거듭제곱 함수 (rational power function)를 사용하여 적응형 비선형성 (adaptive nonlinearity)을 달성함으로써, 표현 능력 (representation ability)을 향상시키고 스파이크 영역 (spike regions)에서도 안정적인 학습을 가능하게 합니다. 또한, 우리는 PowLU의 몇 가지 주요 특성에 대한 이론적 근거를 제공합니다. 스케일링 법칙 (Scaling law) 실험을 통해 모델 크기에 관계없이 성능이 일관됨을 확인하였으며, Ling 아키텍처 (총 파라미터 7.9B 및 124B)를 이용한 추가 실험 결과는 PowLU가 LLM의 대규모 학습에서 SwiGLU 및 SwiGLU-Clip에 대해 경쟁력 있는 결과를 달성함을 입증합니다. 또한, 실험 결과는 PowLU가 LLM의 대규모 학습 확장성 (scalability)을 효과적으로 개선한다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기