arXiv논문2026. 06. 09. 11:10

비볼록 손실 지형(Non-convex Loss Landscape)에서의 미아 상태: 대규모 시계열 모델(Large Time Series

요약

대규모 시계열 모델(LTSM)의 비볼록 손실 지형 문제를 해결하기 위한 새로운 미세 조정 기술인 SFF를 제안합니다. 보조 모델과의 선형 보간을 통해 손실 지형을 매끄럽게 만들어, 사전 학습된 지식을 보존하면서도 과적합을 방지하고 학습 성능을 높입니다.

핵심 포인트

LTSM의 비볼록 손실 지형으로 인한 미세 조정의 한계 지적
Smoothed Full Fine-tuning(SFF) 기술 제안
보조 모델과의 선형 보간을 통한 손실 지형 평활화
Timer, TimesFM 등 8개 주요 LTSM 모델에서 성능 개선 입증

최근 대규모 시계열 모델 (Large Time Series Models, LTSMs)은 유연한 컨텍스트 길이 (context length), 확장성 (scalability), 그리고 작업 범용성 (task generality)을 포함하여 대규모 언어 모델 (Large Language Models, LLMs)과 유사한 특성을 보이며, 고도화된 작업 특화 모델 (task-specific models)들을 능가함에 따라 점점 더 많은 관심을 받고 있습니다. 그러나 이전 연구들에 따르면, 사전 학습된 (pre-trained) LTSMs는 조건이 좋지 않은 비볼록 손실 지형 (non-convex loss landscape)을 나타낼 수 있으며, 이는 제한된 학습 가능성 (trainability)으로 이어집니다. 결과적으로, 직접적인 미세 조정 (fine-tuning)은 과적합 (overfitting)과 차선의 성능 (suboptimal performance)을 초래하는 경향이 있으며, 때로는 처음부터 학습시키는 것 (training from scratch)보다 더 나쁜 결과를 보여 사전 학습의 이점을 실질적으로 감소시킵니다. 이러한 한계를 극복하기 위해, 우리는 새로운 미세 조정 기술인 Smoothed Full Fine-tuning (SFF)을 제안합니다. 구체적으로, 우리는 무작위 초기화 (random initialization)를 통해 보조 LTSM을 구축하여 더 매끄러운 손실 지형을 얻은 다음, 사전 학습된 모델의 가중치와 선형 보간 (linearly interpolate)하여 원래의 지형을 매끄럽게 만듭니다. 이 과정은 사전 학습된 지식을 보존하면서 학습 가능성을 향상시켜, 결과적으로 더욱 효과적인 다운스트림 미세 조정 (downstream fine-tuning)을 가능하게 합니다. 최적화 (optimization) 관점에서 SFF는 평탄한 영역 (flat regions)을 크게 해치지 않으면서 날카로운 최솟값 (sharp minima)을 교란하여, 좋지 않은 국소 저지대 (poor local basins)에서 벗어나 더 매끄럽고 일반화 가능한 솔루션으로 이동하는 것을 용이하게 합니다. 벤치마크 데이터셋에 대한 광범위한 실험을 통해 Timer, TimesFM, MOMENT, UniTS, MOIRAI, Chronos, TTMs, Sundial을 포함한 8개의 대표적인 LTSMs가 다양한 다운스트림 작업에서 일관된 개선을 보임을 입증했습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/Meteor-Stars/SFF.

AI 자동 생성 콘텐츠

원문 바로가기

비볼록 손실 지형(Non-convex Loss Landscape)에서의 미아 상태: 대규모 시계열 모델(Large Time Series

요약

핵심 포인트

댓글