arXiv논문2026. 06. 26. 12:17

시계열 예측(Time-Series Forecasting)에서 선형 모델(Linear Models)은 얼마나 성능이 좋을 수 있는가?

요약

시계열 예측에서 모델 규모를 키우는 대신 전처리 최적화를 통해 선형 모델의 성능을 극대화하는 연구를 소개합니다. 릿지 회귀를 활용해 8개 벤치마크에서 컨텍스트 길이, 정규화, 증강 패턴을 분석한 결과, 최적화된 선형 모델이 Transformer나 CNN 등 복잡한 모델을 능가함을 입증했습니다.

핵심 포인트

모델 확장보다 전처리 조정이 비용 효율적인 성능 향상을 제공함
최적의 룩백(lookback) 길이는 예측 지평에 따라 비단조적 특성을 보임
컨텍스트 전체보다 학습된 후행 비율에 대한 정규화가 효과적임
최적화된 선형 모델이 8개 벤치마크 중 6개에서 딥러닝 모델을 능가함

시계열 예측(Time-series forecasting) 연구는 모델의 용량(capacity)이 정확도를 결정한다는 가정하에, 특화된 트랜스포머(transformers)에서 범용 파운데이션 모델(foundation models)에 이르기까지 점진적으로 더 큰 아키텍처를 향해 발전해 왔습니다. 우리는 이와 반대되는 입장을 취합니다. 즉, 모델을 확장(scaling)하기보다 전처리(preprocessing)를 조정함으로써 훨씬 낮은 비용으로 대부분의 격차를 줄일 수 있다는 것입니다. 우리는 릿지 회귀(Ridge regression)를 테스트베드로 사용했습니다. 릿지 회귀는 폐형 해(closed-form solution)를 가지고 있으며 해석 가능한 가중치(interpretable weights)를 가져, 최적의 하이퍼파라미터(hyperparameters)를 탐색 과정에서 직접 읽어낼 수 있기 때문입니다. 우리는 8개의 표준 벤치마크(benchmarks)에서 컨텍스트 길이(context length), 로컬 정규화(local normalization), 규제(regularization), 그리고 증강(augmentation)을 탐색하여 세 가지 패턴을 발견했습니다. (1) 최적의 룩백(lookback)은 시계열마다 매우 상이하며 예측 지평(forecast horizon)에 대해 종종 비단조적(non-monotonic)인 특성을 보입니다. 적합된 멱법칙 지수(fitted power-law exponents)는 ETTm2의 $+0.46$부터 Exchange 및 Traffic의 $-0.19$까지 나타나며, 이는 더 긴 지평에는 더 긴 과거 데이터가 필요하다는 관습에 도전합니다. (2) 컨텍스트 전체가 아닌, 학습된 후행 비율(learned trailing fraction)에 대해 정규화(normalizing)하는 것이 거의 보편적으로 선호됩니다. (3) 동일한 데이터셋 내의 시계열들은 하이퍼파라미터에 대해 서로 일치하지 않는 경우가 많습니다. 시계열 간 공유(cross-series sharing)의 최적 정도는 완전히 공유하는 것부터 완전히 시계열별로 개별 적용하는 것까지 다양합니다. 결과적으로 도출된 모델은 대부분의 데이터셋-지평 항목에서 이전의 선형 예측기(linear forecasters)들을 능가했으며, 8개 벤치마크 중 6개에서 Transformer, MLP, CNN 베이스라인(baselines)을 넘어섰습니다. 최적화된 하이퍼파라미터는 데이터 자체에 대한 진단 도구로도 활용될 수 있으며, 더 큰 모델들이 학습된 파라미터 속으로 조용히 흡수해 버리는 구조들을 드러내 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

시계열 예측(Time-Series Forecasting)에서 선형 모델(Linear Models)은 얼마나 성능이 좋을 수 있는가?

요약

핵심 포인트

댓글