저자들이 자신들의 방법을 Muon의 슈퍼파트너(superpartner)인 Smuon이라고 부르지 않은 것은 놓쳐버린 기회네요 :)
요약
본 기사는 SV(Singular Values)를 무작위 노이즈로 대체한 Muon의 변형인 Kaon이라는 방법을 소개합니다. 이 방법은 Muon과 일치하며, 이는 Muon의 성능이 특정 기하학적 구조에 의존하지 않음을 시사합니다. 또한, Muon이 안정적인 최적화 단계 크기를 제공하여 훈련 과정에서 더 효과적인 학습률을 생성한다는 점도 강조하고 있습니다.
핵심 포인트
- Kaon은 SV(Singular Values)를 무작위 노이즈로 대체한 Muon의 변형입니다.
- Muon과 Kaon의 일치는 Muon의 이점이 기하학적 구조에 의존하지 않음을 보여줍니다.
- Muon은 안정적인 최적화 단계 크기를 가져 훈련 중 효과적인 학습률을 생성합니다.
저자들이 자신들의 방법을 Muon의 슈퍼파트너 (superpartner)인 Smuon이라고 부르지 않은 것은 놓쳐버린 기회네요 :)
저자들은 SV(Singular Values)를 무작위 노이즈로 대체한 Muon의 변형인 Kaon을 소개합니다. Kaon은 Muon과 일치하며, 이는 Muon의 이점이 기하학적 구조 (geometry)에 의존하지 않음을 시사합니다. 또한 그들은 Muon이 안정적인 최적화 (opt.) 단계 크기를 가져서 훈련 중에 더 효과적인 학습률 (learning rate)을 생성한다는 것을 보여줍니다. https:// arxiv.org/abs/2605.11181
AI 자동 생성 콘텐츠
본 콘텐츠는 X @_lewtun (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기