arXiv논문2026. 05. 08. 12:46

Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as

요약

본 논문은 대형 언어 모델(LLMs) 파인튜닝 과정에서 사전 학습과 동일한 최적화기를 사용하는 '최적화기-모델 일관성' 현상을 제시합니다. 이 방법은 다른 접근 방식보다 더 나은 학습-망각 트레이드오프를 달성하여, 새로운 작업에 대한 성능을 유지하면서도 기존의 사전 학습 지식 손실(망각)을 최소화하는 것으로 나타났습니다. 또한, 특정 최적화기(Muon)가 추론 작업에서 기대만큼 좋은 성능을 보이지 않을 수 있음을 실험적으로 분석했습니다.

핵심 포인트

최적화기-모델 일관성: 사전 학습과 동일한 최적화기를 사용하면 모델이 지식을 덜 잊어버리는(better learning-forgetting trade-off) 효과를 얻을 수 있다.
최적화기는 활성화에 대한 정규화 효과를 제공하여, 파인튜닝 가중치 업데이트가 사전 학습 지식의 망각을 줄이는 특정 구조를 따르도록 유도한다.
Muon과 AdamW 비교 실험 결과, Muon은 단순 암기 경향이 강해 소량 데이터 기반 패턴 획득에 부정적인 영향을 미칠 수 있다.
전체 파인튜닝(Full Finetuning) 시 최적화기의 선택이 모델의 지식 보존 능력 및 추론 성능에 중요한 역할을 한다.

대형 언어 모델 (LLMs) 의 학습 과정에서 최적화기 (optimizer) 는 사전 학습 (pretraining) 과 파인튜닝 (finetuning) 단계 모두에서 중요한 역할을 합니다. 본 논문에서는, 사전 학습과 동일한 최적화기를 사용하여 전체 파인튜닝을 수행할 때 다른 최적화기나 LoRA 보다 더 나은 학습-방상 (learning-forgetting) 트레이드오프를 달성함을 관찰했습니다. 즉, 새로운 작업에서 동일한 또는 더 나은 성능을 유지하면서 사전 학습 지식을 덜 잊어버립니다. 이를 '최적화기 - 모델 일관성 (optimizer-model consistency)' 현상으로 명명합니다. 이를 이해하기 위해 통제된 실험과 이론적 분석을 통해 다음과 같이 보입니다: 1) 최적화기는 활성화 (activations) 에 대한 정규화 효과 (regularization effects) 를 통해 모델을 형성하며, 사전 학습 체크포인트 주변에 다른 경계면 (landscapes) 을 만듭니다. 2) 이에 대응하여 SFT 단계의 가중치 업데이트는 사전 학습에서 학습된 지식의 망각을 줄이기 위해 특정 구조를 따라야 하며, 이는 동일한 최적화기를 사용하여 얻을 수 있습니다. 또한, 사전 학습과 SFT 단계 모두에 사용되었을 때 Muon 과 AdamW 를 비교하였으며, 추론 작업 (reasoning tasks) 을 위한 파인튜닝 시 Muon 이 더 나쁜 성능을 보였습니다. 합성 언어 모델링 실험을 통해 이는 Muon 의 단순 암기 (rote memorization) 에 대한 강한 경향에서 비롯될 수 있으며, 소량의 데이터로 패턴 획득 (pattern acquisition) 을 해칠 수 있음을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as

요약

핵심 포인트

댓글