Pion: 직교 동등 변환 (Orthogonal Equivalence Transformation)을 통한 스펙트럼 보존 옵티마이저
요약
Pion은 직교 동등 변환(Orthogonal Equivalence Transformation)에 기반한 스펙트럼 보존 옵티마이저로, LLM 학습의 효율성을 높이기 위해 설계되었습니다. 기존 가산적 옵티마이저와 달리, Pion은 좌우 직교 변환을 통해 각 가중치 행렬의 특이값과 스펙트럼 노름을 유지하면서 최적화를 수행합니다. 이 메커니즘은 LLM 사전 학습 및 미세 조정 과정에서 안정적이고 경쟁력 있는 성능을 보여줍니다.
핵심 포인트
- Pion은 직교 동등 변환(Orthogonal Equivalence Transformation)을 활용하여 스펙트럼 보존 옵티마이저를 구현했습니다.
- 기존 가산적 옵티마이저와 달리, Pion은 좌우 직교 변환으로 가중치 행렬의 특이값과 스펙트럼 노름을 유지합니다.
- 이는 가중치 행렬의 기하학적 구조를 보존하며 최적화를 수행하는 독특한 메커니즘입니다.
- 실험적으로 LLM 사전 학습 및 미세 조정 모두에서 표준 옵티마이저 대비 안정적인 성능을 입증했습니다.
우리는 직교 동등 변환 (Orthogonal Equivalence Transformation)에 기반하여 대규모 언어 모델 (LLM) 학습을 위한 스펙트럼 보존 옵티마이저 (Spectrum-Preserving Optimizer)인 Pion을 소개합니다. Adam 및 Muon과 같은 가산적 옵티마이저 (Additive Optimizers)와 달리, Pion은 각 가중치 행렬 (Weight Matrix)을 좌우 직교 변환 (Orthogonal Transformations)을 통해 업데이트하여 학습 과정 내내 그 특이값 (Singular Values)을 보존합니다. 이는 가중치 행렬의 스펙트럼 노름 (Spectral Norm)을 고정된 상태로 유지하면서 가중치 행렬의 기하학적 구조 (Geometry)를 조절하는 최적화 메커니즘을 제공합니다. 우리는 Pion 업데이트 규칙을 도출하고, 설계 선택 사항들을 체계적으로 검토하며, 몇 가지 주요 속성과 함께 수렴 동작 (Convergence Behavior)을 분석합니다. 실험 결과에 따르면, Pion은 LLM 사전 학습 (Pretraining) 및 미세 조정 (Finetuning) 모두에서 표준 옵티마이저들에 대한 안정적이고 경쟁력 있는 대안을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기