긴 시계열 예측을 위한 효율적인 Transformer: LogTrans, Informer, Reformer, Pyraformer 비교 정리

시계열 예측 (Time Series Forecasting)에서 Transformer는 self-attention을 통해 멀리 떨어진 시점 간의 관계를 포착하기 쉽다는 강점이 있습니다. RNN과 같이 정보를 하나씩 순차적으로 전달할 필요가 없기 때문에, 장기적인 의존 관계 (Long-term dependency)를 다루기에 적합합니다.

반면, 원래의 Transformer를 그대로 긴 시계열 데이터에 사용하면 큰 문제가 발생합니다. 그것은 바로 계산량과 메모리 사용량이 매우 커진다는 것입니다.

일반적인 self-attention에서는 모든 시점 간의 관계를 계산합니다. 입력 시퀀스의 길이를 (L)이라고 하면, attention matrix의 크기는,

[L × L]

이 됩니다. 따라서 계산량은 일반적으로,

[O(L^2)]

이 됩니다.

입력 길이가 수십 정도라면 그리 큰 문제가 되지 않습니다. 하지만 입력이 수백, 수천, 혹은 그 이상이 되면, full attention의 계산 비용과 메모리 비용은 상당히 커집니다.

따라서 시계열 예측 분야에서는 다음과 같은 문제가 중요해집니다.

Transformer의 장거리 의존성을 포착하는 능력을 유지하면서, 어떻게 하면 긴 시계열을 효율적으로 다룰 수 있을 것인가.

LogTrans, Informer, Reformer, Pyraformer는 이 문제에 대한 대표적인 접근 방식이라고 이해할 수 있습니다. 이들은 모두 긴 시퀀스에 대한 Transformer의 효율화를 목표로 하고 있지만, 그 방식은 각각 다릅니다.

간단히 요약하면 다음과 같습니다.

모델	핵심 개념
LogTrans	시간 거리에 기반하여 로그 단위로 sparse attention을 수행
...	아래에서는 각 모델의 개념을 정리합니다.

1. LogTrans: 로그 간격으로 과거를 보는 모델

LogTrans는 Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting이라는 논문에서 제안된 모델입니다.

이 논문이 주목하고 있는 문제는 크게 두 가지입니다.

첫 번째는, 일반적인 Transformer가 시계열 데이터의 **국소적 패턴 (Local pattern)**을 충분히 중시하지 않는다는 점입니다.

두 번째는, 일반적인 self-attention에서는 메모리 사용량이 (O(L^2))가 된다는 점입니다.

시계열 데이터에서는 특정 시점의 값 하나만 보는 것으로는 불충분합니다. 그 시점의 전후에 있는 국소적인 형태도 중요합니다.

예를 들어, 똑같이 높은 값이라 하더라도 그것이 정상적인 상승 과정인지, 아니면 이상한 스파이크 (Spike)인지 여부는 주변 값을 보지 않으면 알 수 없습니다.

정상적인 상승:
60, 70, 80, 90, 100
이상한 스파이크:
...

한 점만 보면 둘 다 '80'이라는 높은 값으로 보일 수 있습니다. 하지만 주변 형태를 보면 의미는 크게 다릅니다.

그래서 LogTrans에서는 query와 key를 만들 때 causal convolution을 사용합니다. 이를 통해 attention에서 비교하는 대상이 '하나의 시점'뿐만 아니라 '그 주변을 포함하는 국소적 패턴'이 됩니다.

또한, LogTrans의 또 다른 중요한 기법이 LogSparse Attention입니다.

일반적인 Transformer에서는 특정 시점 (t)가 모든 과거 시점을 보게 됩니다.

t가 보는 범위:
1, 2, 3, ..., t-2, t-1, t

반면, LogSparse Attention에서는 모든 과거를 보는 것이 아니라 일부 시점만을 봅니다. 예를 들어 다음과 같은 형태입니다.

t, t-1, t-2, t-4, t-8, t-16, ...

즉, 가까운 과거는 비교적 세밀하게 보고, 먼 과거는 로그 단위의 간격으로 본다는 개념입니다.

이 설계에는 직관적인 의미가 있습니다. 최근 시점은 단기적인 변화를 포착하기 위해 중요하므로 세밀하게 볼 필요가 있습니다. 반면, 먼 과거도 장기적인 의존 관계를 포착하기 위해 중요하지만, 모든 점을 세밀하게 볼 필요는 없습니다.

따라서 LogTrans는 다음과 같이 정리할 수 있습니다.

causal convolution으로 국소적인 형태를 포착하고, LogSparse Attention으로 장기적인 의존 관계를 효율적으로 포착하는 모델.

LogTrans의 장점은 '국소적인 변화'와 '장기적인 의존 관계'를 모두 고려하고 있다는 점입니다.

반면, 어떤 과거 시점을 볼지는 인간이 설계한 규칙에 기반하고 있기 때문에, 모든 데이터에 최적이라고 할 수는 없습니다.

2. Informer: 중요한 query만을 중점적으로 계산하는 모델

Informer는 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting라는 논문에서 제안된 모델입니다. 긴 시계열 예측(Long Sequence Time-Series Forecasting)에서 대표적인 Transformer 계열 모델 중 하나입니다.

Informer에는 주로 세 가지 중요한 요소가 있습니다.

ProbSparse Self-Attention
Self-Attention Distilling
Generative Style Decoder

이 중에서 특히 중요한 것이 ProbSparse Attention입니다.

일반적인 self-attention에서는 모든 query가 모든 key와 관계를 계산합니다. 하지만 Informer에서는 긴 시퀀스(Sequence) 내에서 모든 query가 똑같이 중요한 것은 아니라고 가정합니다.

어떤 query는 소수의 중요한 위치에 강하게 주목합니다. 이러한 query는 정보량이 많다고 간주됩니다.

예를 들어, 다음과 같은 attention 분포가 있습니다.

Query A:
[0.90, 0.02, 0.03, 0.05]

이 query는 첫 번째 위치에 강하게 주목하고 있습니다. 따라서 중요한 query라고 생각할 수 있습니다.

반면, 다음과 같이 전체에 균등하게 attention이 분산되어 있는 경우도 있습니다.

Query B:
[0.25, 0.24, 0.26, 0.25]

이러한 query는 어디에 주목하고 있는지 명확하지 않으며, 정보량은 비교적 적다고 간주됩니다.

그래서 Informer에서는 다음과 같은 흐름으로 계산을 수행합니다.

어떤 query가 중요한지 추정한다
↓
중요한 query를 선택한다
...

이를 통해 모든 query에 대해 완전한 (QK^T)를 계산할 필요가 없어져, 계산량(Computational Complexity)을 줄일 수 있습니다.

Informer의 두 번째 요소는 Self-Attention Distilling입니다.

이는 encoder 내에서 시퀀스의 길이를 점점 짧게 만들어가는 메커니즘입니다.

예를 들어, 다음과 같이 시퀀스 길이를 압축합니다.

96 → 48 → 24 → 12

Conv1D나 pooling에 가까운 연산을 통해 중요한 정보는 남기면서, 이후 레이어(Layer)에서 다룰 시퀀스의 길이를 짧게 만듭니다. 이를 통해 계산량을 더욱 줄일 수 있습니다.

세 번째 요소는 Generative Style Decoder입니다.

일반적인 자기회귀적 (Autoregressive) 예측에서는 미래의 값을 하나씩 예측합니다.

t+1을 예측
↓
t+2를 예측
...

반면, Informer에서는 한 번의 순전파 (Forward Pass)로 미래 시퀀스를 한꺼번에 출력합니다.

한 번에 출력:
t+1, t+2, ..., t+H

이는 긴 예측 구간을 다룰 때 유효합니다. 추론(Inference) 속도가 빨라지며, 하나씩 예측할 때 발생하는 오차의 누적(Error Accumulation)도 억제하기 쉽습니다.

따라서 Informer는 다음과 같이 정리할 수 있습니다.

ProbSparse Attention으로 계산량을 줄이고, Distilling으로 encoder의 시퀀스 길이를 짧게 하며, Generative Decoder로 미래 시퀀스를 한 번에 예측하는 모델.

Informer의 장점은 구조가 이해하기 쉽고, 긴 시계열 예측을 강력하게 의식하여 설계되었다는 점입니다.

반면, "중요한 query는 소수이다"라는 가정이 모든 데이터에서 성립한다고 단정할 수는 없습니다. 또한, distilling 과정에서 세밀한 정보가 손실될 가능성도 있습니다.

3. Reformer: LSH를 사용한 범용적인 고효율 Transformer

Reformer는 Reformer: The Efficient Transformer라는 논문에서 제안된 모델입니다.

LogTrans, Informer, Pyraformer와 달리, Reformer는 시계열 예측 전용 모델이 아닙니다. 더 일반적인, 긴 시퀀스(sequence)를 다루기 위한 고효율 Transformer입니다. 따라서 시계열 예측 논문에서는 efficient Transformer의 비교 대상으로 자주 사용됩니다.

Reformer의 핵심 요소는 크게 두 가지입니다.

LSH Attention, Reversible Residual Layers

LSH는 Locality-Sensitive Hashing의 약자입니다. 간단히 말하면,

유사한 벡터를 동일한 bucket에 넣기 쉽게 만드는 방법

입니다.

일반적인 self-attention에서는 모든 token이 모든 token과 비교됩니다.

x1은 x1부터 xL까지 전부와 비교한다
x2도 x1부터 xL까지 전부와 비교한다
...

반면, Reformer에서는 다음과 같이 처리합니다.

LSH를 사용하여 유사한 token을 동일한 bucket으로 나눈다
↓
동일한 bucket 내부에서만 attention을 계산한다

예를 들어, 다음과 같은 이미지입니다.

Bucket A: x1, x4, x7
Bucket B: x2, x5
Bucket C: x3, x6, x8

이 경우, x1은 주로 x4나 x7과 attention을 계산합니다. 모든 위치와 비교할 필요가 없어집니다.

이러한 사고방식은 LogTrans나 Informer와는 다릅니다.

모델	sparse / efficient하게 만드는 방법
LogTrans	시간 거리에 기반하여 보는 위치를 줄임
...

Reformer의 또 다른 중요한 요소는 Reversible Residual Layers입니다.

일반적인 Transformer에서는 학습 시의 역전파 (backpropagation)를 위해 각 층의 중간 결과(intermediate results)를 저장해 두어야 합니다. 시퀀스가 길어지고 층이 깊어지면, 이 중간 결과가 큰 메모리를 사용합니다.

Reformer에서는 가역적인 (reversible) 구조를 사용함으로써, 뒤쪽 층에서 앞쪽 층의 상태를 복원할 수 있도록 합니다. 따라서 모든 중간 결과를 저장하지 않고도 학습할 수 있습니다.

이미지로 표현하면 다음과 같습니다.

일반적인 Transformer:
계산하면서 중간 결과를 저장해 둔다
Reformer:
...

따라서 Reformer는 다음과 같이 정리할 수 있습니다.

LSH Attention으로 attention 계산량을 줄이고, Reversible Layers로 학습 시 메모리 사용량을 줄이는 모델.

Reformer의 장점은 시계열에 국한되지 않고 다양한 긴 시퀀스에 사용할 수 있다는 점입니다.

반면, 시계열 특유의 국소성 (locality), 주기성 (periodicity), 다중 스케일성 (multi-scale property)을 명시적으로 고려하고 있지는 않습니다. 그러므로 시계열 예측에서는 전용 forecasting 모델이라기보다, 효율적인 Transformer의 비교 대상으로 이해하는 것이 쉽습니다.

4. Pyraformer: 피라미드 구조로 다중 스케일 시계열을 나타내는 모델

Pyraformer는 Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting라는 논문에서 제안된 모델입니다.

Pyraformer는 앞선 세 모델과 비교해도 시계열 데이터의 특징을 상당히 강하게 의식하고 있습니다. 핵심적인 사고방식은 다음과 같습니다.

시계열 데이터에는 다중 스케일 구조가 있으므로, 이를 모델의 구조에도 반영해야 한다.

많은 시계열 데이터에는 여러 스케일의 패턴이 동시에 존재합니다.

단기적인 변동
중기적인 주기
장기적인 트렌드

예를 들어 전력 수요 예측에서는 다음과 같은 요소가 동시에 존재합니다.

시간별 변화
하루의 주기
일주일의 주기
...

일반적인 Transformer는 모든 원래 시점 사이에서 attention을 계산합니다.

반면 Pyraformer는 먼저 시계열을 다중 스케일의 피라미드 구조로 나타냅니다.

간단히 말하면, 다음과 같은 이미지입니다.

전체를 나타내는 거친(coarse) 노드
/ \
중간 스케일 중간 스케일
...

Pyraformer의 핵심 모듈은 **Pyramidal Attention Module (PAM)**입니다.

PAM에는 주로 두 가지 종류의 연결이 있습니다.

Inter-scale connections (스케일 간 연결)
Intra-scale neighboring connections (스케일 내 인접 연결)

Inter-scale connections는 서로 다른 스케일 사이의 연결입니다.

예를 들어, 원래의 시점이 상위의 국소 구간 노드(local interval node)에 연결되고, 나아가 그 위의 더 거친(coarse) 스케일의 노드에 연결됩니다.

이 연결의 역할은,

세밀한 정보를 더 거친 정보로 통합하는 것

입니다.

반면, Intra-scale neighboring connections는 동일한 스케일 내에서 인접한 노드들을 잇는 연결입니다.

이 연결의 역할은,

동일한 시간 스케일 내에서 가까운 시점들 사이의 관계를 포착하는 것

입니다.

각 계층은 다음과 같이 서로 다른 정보를 포착한다고 생각할 수 있습니다.

계층	주로 포착하는 정보
아래층	단기적인 변동
...

이 구조를 통해 멀리 떨어진 시점들 사이가 직접적인 full attention을 수행하지 않더라도, 높은 계층의 노드를 통해 정보를 주고받을 수 있습니다.

예를 들어, 다음과 같은 경로입니다.

x1 → 국소 노드 → 중간 노드 → 전체 노드 → 중간 노드 → x1000

이와 같이 Pyraformer는 연결의 수를 억제하면서도 장기적인 의존 관계(long-term dependency)를 다룰 수 있습니다.

따라서 Pyraformer는 다음과 같이 요약할 수 있습니다.

시계열을 다중 스케일(multi-scale) 피라미드 구조로 표현하며, 서로 다른 스케일 간 및 동일 스케일 내의 연결을 통해 시간 의존성을 포착하는 모델.

Pyraformer의 장점은 시계열 데이터의 다중 스케일 구조를 명시적으로 다룰 수 있다는 점입니다.

반면, 구조가 다소 복잡하여 LogTrans나 Informer보다 이해 및 구현 비용이 높습니다.

5. 네 가지 모델의 비교

지금까지 살펴본 네 가지 모델은 모두 긴 시퀀스에 대한 Transformer의 계산 비용을 낮추고자 합니다. 하지만 그 방법은 각각 다릅니다.

모델	키워드	주요 개념	시계열 전용 여부
LogTrans	LogSparse Attention	(t-1, t-2, t-4, t-8)과 같이 로그 간격으로 과거를 봄	예
...

한 문장으로 구분하면 다음과 같습니다.

LogTrans:
어떤 과거 시점을 볼지를 시간 거리에 기반하여 결정한다.
Informer:
...

6. 모델별 개념의 차이

이 네 가지 모델의 본질적인 차이는 단순히 계산량의 차이만이 아닙니다. 긴 시퀀스를 어떻게 이해하고 있는지가 다릅니다.

LogTrans는 시계열에 국소적인 형태(local shape)와 장기적인 의존 관계가 모두 필요하다고 생각합니다. 따라서 causal convolution을 통해 국소적인 형태를 도입하고, LogSparse Attention을 통해 먼 과거의 정보를 효율적으로 사용합니다.

Informer는 긴 시퀀스의 attention에서 모든 query가 중요하지는 않다고 생각합니다. 따라서 정보량이 많은 query를 선택하고, 그것들에 대해 중점적으로 attention을 계산합니다.

Reformer는 attention이 주로 유사한 token들 사이에서 발생한다고 생각합니다. 따라서 LSH(Locality Sensitive Hashing)를 통해 유사한 token을 같은 bucket에 나누고, 그 안에서 계산을 수행합니다.

Pyraformer는 시계열에 다중 스케일 구조가 있다고 생각합니다. 따라서 단기적인 변동, 중기적인 경향, 장기적인 변화를 동시에 다룰 수 있도록 피라미드 구조를 사용합니다.

시계열 데이터의 구조를 얼마나 강하게 의식하고 있는가라는 관점에서는 대략 다음과 같이 이해할 수 있습니다.

Pyraformer > LogTrans > Informer > Reformer

Pyraformer는 다중 스케일 구조를 강하게 의식하고 있습니다. LogTrans는 국소성과 장기 의존성을 명확히 고려합니다. Informer는 주로 효율적인 attention과 장기 예측을 중시합니다. Reformer는 범용적인 장기 시퀀스 모델이며, 시계열 특유의 구조를 강하게 가정하고 있지는 않습니다.

7. 요약

LogTrans, Informer, Reformer, Pyraformer는 모두 Transformer를 긴 시퀀스(sequence)에 적용하기 위한 중요한 개선 사항으로 이해할 수 있습니다.

이 모델들이 공통적으로 고려하고 있는 문제는 다음의 한 가지입니다.

기존 Transformer의 full attention은 계산 비용(computational cost)이 높습니다. 그렇다면 어떻게 해야 긴 시계열을 더 효율적으로 다룰 수 있을까요?

이 질문에 대해 네 가지 모델은 각각 서로 다른 답을 내놓았습니다.

LogTrans:
시간 거리(temporal distance)를 기반으로 로그 스케일의 sparse한 연결을 사용한다.
Informer:
...

LogTrans는 국소성(locality)과 sparse long-range dependency를 중시한 모델입니다.

Informer는 query sparsity와 효율적인 forecasting decoder를 중시한 모델입니다.

Reformer는 approximate attention과 memory-efficient training을 중시한 범용 모델입니다.

Pyraformer는 multi-scale time-series representation을 중시한 모델입니다.

이 모델들이 현재 모든 시계열 태스크(task)에 대한 최종적인 정답은 아닙니다. 하지만 PatchTST, MOMENT, TIME-LLM 등 이후에 등장한 시계열 모델들을 이해하기 위한 중요한 토대가 됩니다.

마지막으로, 네 가지 모델은 다음과 같이 기억하면 이해하기 쉽습니다.

LogTrans는 시간 거리에 기반하여 sparse하게 바라봅니다. Informer는 중요한 query를 선택합니다. Reformer는 유사한 token을 같은 bucket에 넣습니다. Pyraformer는 시계열을 다중 스케일(multi-scale)의 피라미드로 바라봅니다.

참고 문헌

[1] Li et al. Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting. NeurIPS 2019.

[2] Zhou et al. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting. AAAI 2021.

[3] Kitaev et al. Reformer: The Efficient Transformer. ICLR 2020.

[4] Liu et al. Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting. ICLR 2022.

긴 시계열 예측을 위한 효율적인 Transformer: LogTrans, Informer, Reformer, Pyraformer 비교 정리

요약

핵심 포인트

1. LogTrans: 로그 간격으로 과거를 보는 모델

2. Informer: 중요한 query만을 중점적으로 계산하는 모델

3. Reformer: LSH를 사용한 범용적인 고효율 Transformer

4. Pyraformer: 피라미드 구조로 다중 스케일 시계열을 나타내는 모델

5. 네 가지 모델의 비교

6. 모델별 개념의 차이

7. 요약

참고 문헌

Discussion

댓글