arXiv논문2026. 06. 01. 12:05

Softsign: 더 나은 파라미터 이질성 (Parameter Heterogeneity) 처리를 위한 옵티마이저용 부드러운 부호 (Smooth

요약

부호 기반 옵티마이저의 고정된 업데이트 크기 문제를 해결하기 위해 SoftSignum을 제안합니다. 온도 제어형 소프트 사인 변환을 통해 파라미터 이질성을 처리하며, LLM 사전 학습 등 다양한 작업에서 AdamW보다 우수한 성능을 입증했습니다.

핵심 포인트

하드 사인 맵을 소프트 사인 변환으로 대체하여 수렴성 개선
적응형 분위수 기반 온도 스케줄링 도입
행렬 값 옵티마이저인 SoftMuon으로 확장 가능
확률적 비볼록 환경에서의 수렴 이론적 증명 완료
LLM 사전 학습 및 딥러닝 작업에서 AdamW 대비 성능 향상

부호 기반 (Sign-based) 및 LMO에서 영감을 받은 옵티마이저 (Optimizers)들은 강력한 성능과 낮은 메모리 점유율 덕분에 최근 딥러닝 (Deep Learning) 분야에서 상당한 주목을 받고 있습니다. 그러나 이들의 고정된 크기 업데이트 (Fixed-magnitude updates)는 최종 수렴 (Terminal convergence)을 저해할 수 있습니다. 즉, 업데이트 메커니즘을 그래디언트 크기 (Gradient magnitudes)와 분리시키고 파라미터 이질성 (Parameter heterogeneity)을 고려하지 못하여, 수렴하기보다는 종종 진동 (Oscillation)을 유발하기 때문입니다. 우리는 부호 기반 최적화 (Sign-based optimization)를 부드럽게 완화한 SoftSignum을 제안합니다. 이는 하드 사인 맵 (Hard sign map)을 온도 제어형 소프트 사인 변환 (Temperature-controlled soft-sign transformation)으로 대체하여, 파라미터별로 부호와 유사한 업데이트 (Sign-like updates)에서 크기에 민감한 SGD 유사 단계 (Magnitude-sensitive SGD-like steps)로의 전환을 가능하게 합니다. 우리는 이를 적응형 분위수 기반 온도 스케줄 (Adaptive quantile-based temperature schedule)로 보완하며, 동일한 원리를 행렬 값 옵티마이저 (Matrix-valued optimizers)로 확장하여 SoftMuon을 얻었습니다. 또한 강볼록 정규화 항 (Strongly convex regularizers)과 펜첼 공액 (Fenchel conjugates)에 기반한 일반화된 기하학적 완화 프레임워크 (Generalized geometry-relaxation framework)를 개발하여, 확률적 비볼록 (Stochastic non-convex) 환경에서의 수렴을 증명했습니다. LLM 사전 학습 (LLM pretraining)을 포함한 다양한 딥러닝 작업에 대한 실험 결과, SoftSignum과 SoftMuon은 기존의 하드 사인 기반 방식 및 표준 AdamW보다 일관되게 향상된 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Softsign: 더 나은 파라미터 이질성 (Parameter Heterogeneity) 처리를 위한 옵티마이저용 부드러운 부호 (Smooth

요약

핵심 포인트

댓글