Truncated SVD 레이어를 통한 LLM의 효율적인 사전 학습 (Pre-Training)
요약
LLM 사전 학습 비용을 절감하기 위해 Truncated SVD 레이어를 활용하는 TSVD 프레임워크를 제안합니다. 적응형 랭크 선택과 캐싱 메커니즘을 통해 계산 효율성을 높이면서도 기존 모델과 대등하거나 더 나은 성능을 입증했습니다.
핵심 포인트
- TSVD는 적응형 랭크 선택을 통해 파라미터와 계산 비용을 최적화함
- 스펙트럼 에너지 기반 휴리스틱으로 효율적인 저차원 표현 구현
- 캐싱 메커니즘을 사용하여 가중치의 직교성을 유지함
- 전체 파라미터 학습 방식과 대등하거나 뛰어난 성능을 보임
대규모 언어 모델 (LLMs)의 거대한 스케일링은 사전 학습 (Pre-training) 비용을 점점 더 감당하기 어렵게 만들고 있습니다. 저차원 표현 (Low-rank representation)과 직교 행렬 (Orthonormal weight matrices)은 원칙적으로 파라미터 수와 계산 오버헤드를 줄일 수 있지만, 대부분의 기존 방법들은 정적인 랭크 선택 (Static rank selection)에 의존하며 높은 계산 비용 때문에 가중치의 직교성 (Weight orthonormality)을 강제하지 못합니다. 본 논문은 학습 과정 전반에 걸쳐 낮은 랭크와 엄격한 직교성을 유지하는 프레임워크인 TSVD를 소개합니다. TSVD는 적응형 랭크 선택 (Adaptive rank selection)을 위해 스펙트럼 에너지 기반 휴리스틱 (Spectral energy-based heuristic)을 활용하며, 직교성을 유지하기 위해 캐싱 메커니즘 (Caching mechanisms)을 사용합니다. 이론적 분석은 사전 학습 역학 (Pretraining dynamics) 측면에서 이 접근 방식의 이점을 정당화하며, 다양한 모델 규모에 걸친 실험을 통해 경험적으로 효과적임을 입증합니다. TSVD는 계산 요구 사항을 크게 줄이면서도 전체 파라미터 베이스라인 (Full-parameter baselines)의 성능과 일치하거나 이를 능가합니다. 따라서 이 접근 방식은 효율적이고 고성능인 LLM 사전 학습을 향한 근거 있고 실용적이며 확장 가능한 경로를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기