MSMixer: 장기 시간계열 예측을 위한 보완적 선형 단축과 함께 학습된 다중 규모Temporal Mixing
요약
MSMixer는 장기 시간계열 예측에서 빠른 진동, 중거리 주기성, 거시 경향을 동시에 포착하기 위해 설계된 새로운 모델입니다. 이 모델은 채널 독립적인 다중 규모 MLP 구조와 동적 가중치 게이트를 사용하여 여러 해상도(1x, 4x, 16x)의 패턴을 병렬로 학습합니다. 또한, DLinear 보완적 단축을 추가하여 전체 시간 윈도우의 경향성과 계절성 컨텍스트를 효과적으로 포착하며, 기존 모델 대비 높은 성능과 효율성을 입증했습니다.
핵심 포인트
- MSMixer는 다중 규모(multi-scale) MLP 구조를 채택하여 다양한 주파수 패턴을 동시에 학습합니다.
- 세 가지 해상도 분지(1x, 4x, 16x)와 동적 가중치 게이트를 통해 각 규모의 정보를 효과적으로 결합합니다.
- DLinear 보완적 단축은 장기적인 경향성 및 계절성 컨텍스트를 제공하여 예측 성능을 향상시킵니다.
- MSMixer는 파라미터 효율성이 뛰어나며, 기존 SOTA 모델(예: PatchTST) 대비 적은 파라미터로 우수한 성능을 달성했습니다.
장기 시간계열 예측은 고정된 look-back window 에서 빠른 진동, 중거리 주기성, 그리고 서서히 변화하는 거시 경향을 동시에 포착할 수 있는 모델을 요구합니다. 기존 경량 MLP 기반 모델들은 일반적으로 단일 temporal resolution 에서 작동하여 다중 규모 패턴을 명시적으로 모델링하는 능력을 제한합니다. 우리는 이 한계를 해결하기 위해 제안한 MSMixer 는 채널 독립적 multi-scale MLP 구조로, 세 가지 보완적 혁신을 통해 다음과 같은 문제를 해결합니다: (i) down-sample factors {1x, 4x, 16x} 에서 독립적인 MLP 블록을 가진 세 개의 병렬 규모 분지, (ii) 동적으로 분지 출력을 가중치하는 학습 가능한 softmax 게이트, (iii) 전체 윈도우의 경향성과 계절성 컨텍스트를 제공하는 DLinear 보완적 단축입니다. MSMixer 는 H=96 에서 112K 파라미터만 포함하며 O(T) 복잡도로 실행됩니다. 표준 chronological splits 과 세 가지 random seeds 를 사용한 네 가지 ETT 벤치마크에서 평가한 결과, MSMixer 는 경량 모델 중 평균 MSE (0.357) 가 가장 낮으며, DLinear (0.386, -7.4%) 과 NLinear (0.365, -2.1%) 을 능가하여 16 가지 구성 중 12 가지에서 승리했습니다. 문헌의 5 개 Transformer 기반 베이스라인과 비교했을 때, MSMixer 는 16 가지 구성 중 9 가지에서 가장 낮은 또는 두 번째로 낮은 MSE 를 달성하며 PatchTST 보다 5 배 적은 파라미터를 사용합니다. Ablation 과 sensitivity 분석은 다중 규모 분지와 DLinear 단축의 보완적 기여를 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기