본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 12:46

Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as

요약

본 논문은 대형 언어 모델(LLMs) 파인튜닝 과정에서 사전 학습과 동일한 최적화기를 사용하는 '최적화기-모델 일관성' 현상을 제시합니다. 이 방법은 다른 접근 방식보다 더 나은 학습-망각 트레이드오프를 달성하여, 새로운 작업에 대한 성능을 유지하면서도 기존의 사전 학습 지식 손실(망각)을 최소화하는 것으로 나타났습니다. 또한, 특정 최적화기(Muon)가 추론 작업에서 기대만큼 좋은 성능을 보이지 않을 수 있음을 실험적으로 분석했습니다.

핵심 포인트

  • 최적화기-모델 일관성: 사전 학습과 동일한 최적화기를 사용하면 모델이 지식을 덜 잊어버리는(better learning-forgetting trade-off) 효과를 얻을 수 있다.
  • 최적화기는 활성화에 대한 정규화 효과를 제공하여, 파인튜닝 가중치 업데이트가 사전 학습 지식의 망각을 줄이는 특정 구조를 따르도록 유도한다.
  • Muon과 AdamW 비교 실험 결과, Muon은 단순 암기 경향이 강해 소량 데이터 기반 패턴 획득에 부정적인 영향을 미칠 수 있다.
  • 전체 파인튜닝(Full Finetuning) 시 최적화기의 선택이 모델의 지식 보존 능력 및 추론 성능에 중요한 역할을 한다.

대형 언어 모델 (LLMs) 의 학습 과정에서 최적화기 (optimizer) 는 사전 학습 (pretraining) 과 파인튜닝 (finetuning) 단계 모두에서 중요한 역할을 합니다. 본 논문에서는, 사전 학습과 동일한 최적화기를 사용하여 전체 파인튜닝을 수행할 때 다른 최적화기나 LoRA 보다 더 나은 학습-방상 (learning-forgetting) 트레이드오프를 달성함을 관찰했습니다. 즉, 새로운 작업에서 동일한 또는 더 나은 성능을 유지하면서 사전 학습 지식을 덜 잊어버립니다. 이를 '최적화기 - 모델 일관성 (optimizer-model consistency)' 현상으로 명명합니다. 이를 이해하기 위해 통제된 실험과 이론적 분석을 통해 다음과 같이 보입니다: 1) 최적화기는 활성화 (activations) 에 대한 정규화 효과 (regularization effects) 를 통해 모델을 형성하며, 사전 학습 체크포인트 주변에 다른 경계면 (landscapes) 을 만듭니다. 2) 이에 대응하여 SFT 단계의 가중치 업데이트는 사전 학습에서 학습된 지식의 망각을 줄이기 위해 특정 구조를 따라야 하며, 이는 동일한 최적화기를 사용하여 얻을 수 있습니다. 또한, 사전 학습과 SFT 단계 모두에 사용되었을 때 Muon 과 AdamW 를 비교하였으며, 추론 작업 (reasoning tasks) 을 위한 파인튜닝 시 Muon 이 더 나쁜 성능을 보였습니다. 합성 언어 모델링 실험을 통해 이는 Muon 의 단순 암기 (rote memorization) 에 대한 강한 경향에서 비롯될 수 있으며, 소량의 데이터로 패턴 획득 (pattern acquisition) 을 해칠 수 있음을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0