arXiv논문2026. 05. 28. 12:38

Truncated SVD 레이어를 통한 LLM의 효율적인 사전 학습 (Pre-Training)

요약

LLM 사전 학습 비용을 절감하기 위해 Truncated SVD 레이어를 활용하는 TSVD 프레임워크를 제안합니다. 적응형 랭크 선택과 캐싱 메커니즘을 통해 계산 효율성을 높이면서도 기존 모델과 대등하거나 더 나은 성능을 입증했습니다.

핵심 포인트

TSVD는 적응형 랭크 선택을 통해 파라미터와 계산 비용을 최적화함
스펙트럼 에너지 기반 휴리스틱으로 효율적인 저차원 표현 구현
캐싱 메커니즘을 사용하여 가중치의 직교성을 유지함
전체 파라미터 학습 방식과 대등하거나 뛰어난 성능을 보임

대규모 언어 모델 (LLMs)의 거대한 스케일링은 사전 학습 (Pre-training) 비용을 점점 더 감당하기 어렵게 만들고 있습니다. 저차원 표현 (Low-rank representation)과 직교 행렬 (Orthonormal weight matrices)은 원칙적으로 파라미터 수와 계산 오버헤드를 줄일 수 있지만, 대부분의 기존 방법들은 정적인 랭크 선택 (Static rank selection)에 의존하며 높은 계산 비용 때문에 가중치의 직교성 (Weight orthonormality)을 강제하지 못합니다. 본 논문은 학습 과정 전반에 걸쳐 낮은 랭크와 엄격한 직교성을 유지하는 프레임워크인 TSVD를 소개합니다. TSVD는 적응형 랭크 선택 (Adaptive rank selection)을 위해 스펙트럼 에너지 기반 휴리스틱 (Spectral energy-based heuristic)을 활용하며, 직교성을 유지하기 위해 캐싱 메커니즘 (Caching mechanisms)을 사용합니다. 이론적 분석은 사전 학습 역학 (Pretraining dynamics) 측면에서 이 접근 방식의 이점을 정당화하며, 다양한 모델 규모에 걸친 실험을 통해 경험적으로 효과적임을 입증합니다. TSVD는 계산 요구 사항을 크게 줄이면서도 전체 파라미터 베이스라인 (Full-parameter baselines)의 성능과 일치하거나 이를 능가합니다. 따라서 이 접근 방식은 효율적이고 고성능인 LLM 사전 학습을 향한 근거 있고 실용적이며 확장 가능한 경로를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Truncated SVD 레이어를 통한 LLM의 효율적인 사전 학습 (Pre-Training)

요약

핵심 포인트

댓글