PC Layer: LLM 사전 학습 개선을 위한 다항식 가중치 프리컨디셔닝 (Polynomial Weight Preconditioning)
요약
LLM 사전 학습의 안정성을 높이기 위해 가중치 행렬의 특이값 스펙트럼을 재형성하는 PC 레이어를 제안합니다. 저차 다항식 프리컨디셔닝을 사용하여 추론 오버헤드 없이 학습 효율을 개선하며, Llama-1B 모델 실험을 통해 성능 우위를 입증했습니다.
핵심 포인트
- 다항식 프리컨디셔너를 통한 가중치 매개변수화 방식 제안
- 추론 시 추가적인 오버헤드 없이 원래 아키텍처로 병합 가능
- AdamW 및 Muon 옵티마이저 환경에서 Llama-1B 학습 성능 향상
- 특이값 스펙트럼 제어를 통한 경사 하강법의 기하학적 수렴 증명
우리는 LLM (Large Language Model) 학습 전반에 걸쳐 안정적인 가중치 컨디셔닝 (weight conditioning)을 보장하는 다항식 프리컨디셔너 (polynomial preconditioner)를 통한 가중치 매개변수화 방식인 프리컨디셔닝 (PC) 레이어를 제안합니다. PC 모듈은 저차 다항식 프리컨디셔닝 (low-degree polynomial preconditioning)을 통해 가중치 행렬의 특이값 스펙트럼 (singular-value spectrum)을 재형성합니다. 학습이 완료된 후, 프리컨디셔닝된 가중치는 원래의 아키텍처로 다시 병합될 수 있으며, 추론 오버헤드 (inference overhead)를 발생시키지 않습니다. 우리는 AdamW 및 Muon 옵티마이저 (optimizers) 모두에 대해 Llama-1B 사전 학습 (pre-training) 시 제안된 PC 레이어가 표준 트랜스포머 (transformers)보다 우수함을 입증합니다. 이론적으로, 우리는 특정 심층 선형 네트워크 (deep linear networks)에 대해 각 레이어의 특이값 (singular values)을 균일하게 제한하는 것이 경사 하강법 (gradient descent)의 전역 최솟값 (global minima)에 대한 기하학적 수렴 (geometric convergence)을 보장함을 증명함으로써 이 스펙트럼 제어 원리 (spectrum-control principle)를 정당화합니다. 우리의 코드는 https://github.com/Empath-aln/PC-layer 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기