중첩은 필수가 아니다: 시계열 예측을 위한 트랜스포머 표현에 대한 기계적 해석 가능성 분석
요약
본 논문은 시계열 예측에 사용되는 트랜스포머 아키텍처가 NLP에서처럼 복잡한 '중첩(redundancy)' 표현에 의존하는지에 대한 기계적 해석 가능성 분석을 수행했습니다. 희소 오토인코더(SAE)를 사용하여 PatchTST의 내부 표현을 탐지한 결과, 트랜스포머의 성능이 강한 중첩에 의존한다는 경험적 증거는 발견되지 않았습니다. 대신, 이 표현들은 희소하고, 차원 확장에도 안정적이며, 잠재적인 개입에 대해 비교적 둔감함을 보여주었습니다. 이는 시계열 예측에서 트랜스포머의 성공이 반드시 풍부한 구성 표현을 요구하지 않으며, 단순 선형 모델의 경쟁력을 설명하는 데 도움을 줄 수 있음을 시사합니다.
핵심 포인트
- 시계열 예측에 사용되는 트랜스포머는 NLP와 달리 강한 중첩(redundancy) 표현에 의존하지 않는다.
- 희소 오토인코더(SAE)를 통해 분석된 내부 FFN 표현은 희소하고, 차원 확장에도 안정적이다.
- 트랜스포머의 성능이 반드시 풍부한 구성 표현을 요구하는 것은 아니며, 이는 단순 선형 모델의 경쟁력을 설명할 수 있다.
- 잠재적인 특징에 대한 개입(intervention)은 최소한의 예측 교란만을 일으킨다.
트랜스포머 아키텍처는 시계열 예측에 널리 채택되었으나, NLP 에서 그들을 강력하게 만드는 표현 메커니즘이 실제로 시계열 데이터에서 작동하는지는 아직 탐구되지 않았습니다. 단순 선형 모델인 DLinear 의 지속된 경쟁력은 지속적인 논의를 불러일으켰지만, 이 현상에 대한 기계적 설명은 제공되지 않았습니다. 우리는 PatchTST 의 내부 표현을 탐지하기 위해 기계적 해석 가능성의 도구인 희소 오토인코더 (SAE) 를 적용하여 이 공백을 해결합니다. 먼저 일반적으로 사용되는 벤치마크에서 더 깊은 구성과 비교하여 단일 레이어, 좁은 차원의 트랜스포머가 예측 성능과 일치함을 확립합니다. 우리는 0.5 배에서 4.0 배까지 원본 차원성의 dictionary 크기를 가진 SAE 를 GELU 이후 중간 FFN 활성화에 대해 훈련합니다. Dictionary 를 확장하면 미미한 downstream 성능 변화 (평균 0.214%) 가 발생하며, 과완충된 dictionary 의 큰 부분이 비활성화됩니다. 우세한 잠재 특징에 대한 표적 원인과 개입은 최소한의 예측 교란을 생성합니다. 평가된 모든 설정에서 분석된 FFN 표현이 강한 중첩에 의존한다는 경험적 증거는 없습니다. 대신, 표현은 희소하며, 공격적인 dictionary 확장에 안정적이며, 잠재 개입에 대해 대부분 둔감합니다. 이러한 결과는 표준 예측 벤치마크에서 경쟁력 있는 성능을 위해 중첩이 필수가 아니라는 것을 보여주며, 언어 모델링에서 트랜스포머의 성공을 주도하는 풍부한 구성 표현을 요구하지 않을 수 있음을 시사하고, 단순 선형 모델의 지속된 경쟁력을 설명하는 데 도움이 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기