잔차 연결 (Residual Connection)로서의 Muon

Muon은 최근 대규모 신경망 (Neural Networks) 학습을 위한 가장 효과적인 옵티마이저 (Optimizer) 중 하나로 부상했으나, 그 경험적 성공은 여러 가지 서로 다른 관점에서 설명되어 왔습니다. 본 논문에서 우리는 간단한 기계론적 해석 (Mechanistic Interpretation)을 제안합니다: Muon은 학습 과정 중 암시적인 잔차 연결 (Implicit Residual Connection)로 이해될 수 있습니다. 구체적으로, 업데이트를 직교화 (Orthogonalizing)하는 것은 즉각적인 그래디언트 충실도 (Gradient Fidelity)를 일부 희생할 수 있지만, 하위 계층 (Downstream Layers)을 위한 표현 보존 (Representation Preservation)을 향상시킵니다. 우리는 통제된 선형 최적화 (Linear Optimization) 설정에서 이러한 트레이드오프 (Trade-off)를 연구하며, 여기서 Muon은 로컬 타겟 (Local Target)에 맞추는 속도는 더 느리지만 하위 계층이 활용하기에는 더 쉬운 표현을 학습할 수 있습니다. 우리의 결과는 Muon에 대한 개념적 설명과, 로컬 하강 (Local Descent)과 하위 계층의 사용성 (Downstream Usability) 사이의 균형을 맞추는 옵티마이저 설계를 위한 관점을 제시합니다.

Insights

잔차 연결 (Residual Connection)로서의 Muon

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침