Cubit: Token Mixer with Kernel Ridge Regression
요약
본 논문은 트랜스포머의 핵심 토큰 혼합 메커니즘인 어텐션이 Nadaraya-Watson 회귀로 해석될 수 있음을 밝히고, 이를 기반으로 새로운 아키텍처 Cubit을 제안합니다. Cubit은 Kernel Ridge Regression (KRR) 의 폐쇄형 해를 활용하여 기존의 어텐션 계산 방식을 수정하고, 커널 유사성 및 역행렬을 통한 정규화를 결합했습니다. 실험 결과에 따르면, Cubit은 특히 시퀀스 길이가 길어질수록 트랜스포머 대비 더 강력한 장거리 시퀀스 모델링 능력을 보여줍니다.
핵심 포인트
- 트랜스포머의 어텐션 메커니즘은 수학적으로 Nadaraya-Watson 회귀로 해석될 수 있다.
- Cubit은 KRR의 폐쇄형 해를 활용하여 기존 트랜스포머의 어텐션을 개선한 차세대 아키텍처이다.
- Cubit은 커널 유사성 계산과 커널 행렬 역수를 통한 정규화를 결합하여 안정성을 높인다.
- 추가적으로 Limited-Range Rescale (LRR)을 제안하여 학습 안정성을 개선했다.
- 실험 결과, Cubit은 특히 시퀀스 길이가 길어질수록 트랜스포머보다 우수한 장거리 시퀀스 모델링 성능을 보인다.
2017 년 도입 이후 트랜스포머 (Transformer) 는 현대 딥러닝에서 가장 널리 채택된 아키텍처 중 하나가 되었습니다. 위치 인코딩, attention 메커니즘, feed-forward 네트워크를 개선하기 위한 광범위한 노력이 있었음에도 불구하고, 트랜스포머의 핵심 token-mixing 메커니즘은 여전히 attention 입니다. 본 논문에서는 트랜스포머의 attention 모듈이 Nadaraya-Watson 회귀를 수행하는 것으로 해석될 수 있음을 보여줍니다. 즉, 토큰 간의 유사성을 계산하고 이에 따라 해당 값을 집계합니다. 이러한 관점에서 우리는 Kernel Ridge Regression (KRR) 을 활용하는 잠재적인 차세대 아키텍처인 Cubit 를 제안하며, vanilla Transformer 는 Nadaraya-Watson 회귀에 의존합니다. 구체적으로, Cubit 는 KRR 의 closed-form solution 을 포함시켜 classical attention computation 을 수정하고, kernel similarities 를 통한 값 집계와 kernel matrix 의 역수를 통한 정규화를 결합합니다. 학습 안정성을 개선하기 위해 우리는 Limited-Range Rescale (LRR) 을 추가로 제안하며, 이는 value layer 를 제어된 범위 내에서 rescales 합니다. Cubit 는 KRR 기반 아키텍처로 vanilla Transformer 보다 더 강력한 수학적 기초를 제공한다고 주장하며, vanilla Transformer 의 attention 메커니즘은 Nadaraya-Watson 회귀에 해당합니다. 우리는 종합적인 실험을 통해 이 주장을 검증했습니다. 실험 결과는 Cubit 가 더 강력한 long-sequence modeling capability 를 보일 수 있음을 시사합니다. 특히, 트랜스포머 대비 성능 향상은 학습 시퀀스 길이가 커짐에 따라 증가하는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기