A new generation of AI models and one of the most powerful research papers out
요약
본 기사는 Token AI가 발표한 새로운 최적화 알고리즘인 'Stable Training with Adaptive Momentum (STAM)'을 소개합니다. STAM은 기존의 Adam, AdamW 등 고정된 모멘텀 값으로 인해 발생하는 훈련 불안정성 문제를 해결하며, 그래디언트와 이전 모멘텀 간의 차이를 측정하여 적응형 beta1을 적용함으로써 안정적인 학습을 유도합니다. 특히 경량 버전인 STAMLite는 기존 최적화기 대비 메모리 효율성을 크게 개선하면서도 뛰어난 성능을 보여주어, LLM 훈련에 새로운 표준이 될 잠재력을 제시합니다.
핵심 포인트
- STAM은 고정된 모멘텀 값의 한계를 극복하고 적응형 beta1을 도입하여 AI 모델 훈련의 안정성을 높입니다.
- STAMLite는 AdamW 대비 메모리 사용량을 크게 줄여(약 1× 파라미터 크기) GPU 리소스를 절약하면서도 높은 성능을 유지합니다.
- STAM은 기존 최적화기에 대한 의존도를 깨고, LLM 등 대규모 모델 훈련에 새로운 표준을 제시할 잠재력을 가집니다.
- 벤치마크 결과에서 STAMLite는 뛰어난 정확도와 손실 값을 보여주며, STAM 역시 최고 수준의 성능을 입증했습니다.
오늘은 Token AI 의 새로운 연구 논문인 'Stable Training with Adaptive Momentum'에 대해 이야기합니다.
이것은 이론과 결과 모두에서 가장 강력한 최적화기 중 하나를 소개합니다.
여러 년 동안 우리는 Adam, AdamW, LAMB 등 잘 알려진 최적화기를 사용해 왔습니다. 의심의 여지 없이, AI 모델을 훈련할 때 선택되는 표준이었습니다.
최적화기에 대해 익숙하지 않으신다면, 간단히 말하면: 이는 모든 AI 모델 훈련의 핵심 부분입니다. 손실을 줄이기 위해 훈련 중 모델의 가중치를 업데이트하는 알고리즘을 담당합니다.
그럼에도 불구하고, 이러한 최적화기는 훈련에 영향을 미치는 한계가 있습니다.
예를 들어, Adam 은 훈련 전체 과정에서 고정된 beta1 을 사용하며, 이는 오래된 모멘텀을 가져올 수 있고 모델을 잘못된 방향으로 계속 밀어갈 수 있습니다.
STAM 이 이를 해결하는 방법은 현재 그래디언트와 이전 모멘텀 (g - m) 의 차이를 측정하는 것입니다. 차이가 크면 beta1 을 줄여 노이즈가 있는 단계에서 더 안정적인 훈련을 유도합니다.
또 다른 문제는 훈련 중 변화나 노이즈가 발생했을 때입니다. 오래된 모멘텀은 해로울 수 있습니다. STAM 은 잔차 분산에 기반한 적응형 beta1 을 사용하여 이를 해결합니다.
SGD 의 주요 문제는 방향이 잘못되면 고정된 모멘텀 때문에 계속 진행하는 것입니다. STAM 이 이를 해결하는 방법은 첫 번째 모멘텀을 스스로 수정할 수 있게 하는 것입니다.
이제 더 가벼운 버전인 STAMLite 에 대해 이야기해 보겠습니다.
그것은 많은 경우에서 AdamW 를 기본 선택으로 대체하도록 설계되었습니다. 핵심 차이는 beta1 이 고정된 것이 아니라 동적인 것입니다:
- 그래디언트가 노이즈가 있으면 모멘텀을 줄입니다
- 그래디언트가 안정적이면 모멘텀을 높게 유지합니다
또한 최적화기 상태 메모리 효율성을 개선합니다:
- AdamW 는 약 2× 파라미터 크기를 필요로 합니다
- STAM Full 은 AdamW 에 가깝습니다
- STAMLite 는 약 1× 파라미터 크기를 필요로 합니다
실제로, STAMLite 는 AdamW 와 STAM 대비 약 50% 의 리소스를 절약하며, 이는 훈련 중 GPU 사용량을 크게 줄입니다.
벤치마크를 보면, 결과는 스스로 말해줍니다.
Hyperparameter Sweep 에서 STAMLite 는:
Accuracy: 0.61
Loss: 0.91
Long-Horizon Non-Stationary MLP 에서 STAM 은 NAdam 과 함께 거의 동일한 결과를 얻어 1 위를 차지했습니다:
Accuracy: 0.97
Loss: 0.09
더 많은 벤치마크는 웹사이트와 연구 논문에서 확인할 수 있습니다.
이것은 TokenAI 의 중요한 단계로, 알려진 문제가 있는 최적화기 세트에 대한 오랜 의존성을 깨뜨립니다.
초기 릴리스임에도 불구하고, STAM 은 강력하고 유망함을 증명합니다. 개인적으로 저는 이미 STAM 으로 전환했으며 현재는 이를 사용하여 첫 번째 풀 LLM 을从零에서 훈련 중입니다. 결과는 곧 공유할 예정입니다.
연구 논문:
https://tokenai.cloud/research/stam
어떻게 생각하시는지 알려주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기