AutoMuon 소개: AdamW 의 한 줄 대체용 솔루션
요약
AutoMuon은 PyTorch 훈련 파이프라인에서 AdamW의 대안으로 사용 가능한 Muon 옵티마이저를 자동으로 적용하는 Python 패키지입니다. 이 도구는 모델을 스캔하여 각 파라미터 유형(히든 상태, 임베딩, 편향 등)에 가장 적합한 최적화 기법을 자동으로 선택합니다. Muon은 주로 2차원 가중치 행렬에 효과적이지만, AutoMuon은 나머지 파라미터에는 여전히 AdamW를 사용하여 전체 모델의 안정적인 학습을 보장합니다. 개발자는 이 패키지를 통해 다양한 아키텍처(시계열, 유전체학 등)에서의 Muon 적용 가능성을 확장하고 있습니다.
핵심 포인트
- AutoMuon은 PyTorch에서 AdamW를 대체할 수 있는 Muon 옵티마이저를 자동으로 통합하는 패키지입니다.
- 핵심 기능은 모델의 파라미터 유형을 스캔하여, 2차원 가중치 행렬에는 Muon을, 나머지 부분(임베딩, 편향 등)에는 AdamW를 개별적으로 적용한다는 것입니다.
- 이 접근 방식은 트랜스포머나 CNNs 같은 기존 아키텍처 외의 사용자 정의 복잡한 모델에서도 Muon의 일반화 가능성을 테스트하는 데 유용합니다.
- 개발자는 시계열 예측, 유전체학, 언어 모델링 등 다양한 도메인에서의 추가적인 검증을 계획하고 있습니다.
안녕하세요 모두, 저는 PyTorch 훈련 파이프라인에서 임의의 모델에 대해 AdamW 의 일대일 대체물로 사용 가능한 Muon 옵티마이저를 사용할 수 있도록 하는 작은 Python 패키지인 AutoMuon 을 개발해 왔습니다.
핵심 아이디어는 비교적 간단합니다: Muon 은 주로 히든 상태 (hidden states) 에 대한 2 차원 가중치 행렬 (선형 투영, 컨볼루션 레이어 등) 에서 작동하지만, 임베딩, 노름 (norms), 편향 (biases) 등에 대해서는 여전히 AdamW 가 필요합니다. AutoMuon 은 모델을 초기화 시에 스캔하여 각 파라미터에 맞는 옵티마이저를 자동으로 파악합니다.
저는 PR 에 대해 열려 있으며, 특히 아키텍처에서 경계 사례 (edge cases) 를 마주쳤을 때 모듈 유형 제외 목록 (module-type exclusion list) 을 확장하는 데 기여해 주시면 감사하겠습니다. 누군가가 트랜스포머 (transformers) 나 CNNs 를 제외한 다른 것에 적용하여 어떤 결과를 얻었는지 알고 싶습니다. 저는 이것이 플래시-선형-주의 (flash-linear-attention) 와 같은 완전히 사용자 정의 아키텍처에서는 어려움을 겪을 것 같다고 느낍니다. 따라서 일부 사용자 튜닝이 필요할 것입니다.
저는 시계열 예보 (time series forecasting), 유전체학 (genomics), 언어 모델링 (language modeling) 등에 대한 추가 테스트를 계획하고 있습니다. Muon 의 실제 일반화 가능성을 확인하고 싶습니다!
https://github.com/SkyeGunasekaran/automuon
pip install git+https://github.com/SkyeGunasekaran/automuon.git
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Research의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기