본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 12:12

동적 단기 컨볼루션(Dynamic Short Convolutions)을 통한 Transformer 성능 향상

요약

Transformer 아키텍처의 성능을 높이기 위해 입력 의존적 필터를 사용하는 동적 단기 컨볼루션(Dynamic Short Convolutions)을 제안합니다. 이 방식은 국소성 편향을 유지하면서 표현력을 높여 연상 회상 작업과 언어 모델링 성능을 크게 향상시킵니다.

핵심 포인트

  • 동적 컨볼루션은 입력 의존적 필터로 표현력 강화
  • 표준 Transformer 대비 최대 1.60배의 연산 이점 제공
  • Linear RNN 및 MoE 아키텍처에서도 성능 개선 확인
  • Custom Triton 커널을 통한 실용적인 구현 가능

Transformer는 어텐션 (Attention), 피드포워드 레이어 (Feed-forward layers), 잔차 연결 (Residual connections), 그리고 정규화 (Normalization)의 확장성(Scalability)과 유연성 덕분에 대규모 언어 모델 (Large Language Models)의 지배적인 아키텍처가 되었습니다. 본 논문은 Transformer를 개선하기 위한 추가적인 신경망 프리미티브 (Neural network primitive)로서 동적 단기 컨볼루션 (Dynamic short convolutions)을 소개합니다. 정적 단기 컨볼루션 (Static short convolutions)과 달리, 동적 컨볼루션 (Dynamic convolutions)은 입력 의존적 필터 (Input-dependent filters)를 사용하여 컨볼루션의 국소성 편향 (Locality bias)을 유지하면서도 표현력 (Expressivity)을 높입니다. 동기 부여 실험에 따르면, Key, Query, Value 표현에 동적 단기 컨볼루션을 적용했을 때 정적 컨볼루션 변형 모델보다 까다로운 연상 회상 (Associative recall) 작업에서 성능이 향상됨을 보여줍니다. 150M에서 2B 파라미터에 이르는 언어 모델링 실험 전반에 걸쳐, 동적 컨볼루션은 표준 Transformer 및 정적 단기 컨볼루션으로 증강된 Transformer보다 일관되게 우수한 성능을 보였습니다. 스케일링 법칙 (Scaling laws)을 맞춘 결과, 동적 컨볼루션을 Key, Query, Value 벡터에 적용했을 때 연산량이 동일한 Transformer 대비 1.33배의 연산 이점 (Compute advantage)을 보였으며, 모든 선형 레이어 (Linear layer) 뒤에 동적 컨볼루션을 추가했을 때는 1.60배의 이점을 보였습니다. 또한 동적 컨볼루션은 선형 RNN (Linear RNNs, Mamba-2/Gated DeltaNet) 및 전문가 혼합 (Mixture-of-experts) 아키텍처에서도 개선 효과를 제공합니다. 우리는 관리 가능한 수준의 엔드투엔드 (End-to-end) 속도 저하와 함께 효율적인 학습을 가능하게 하는 커스텀 Triton 커널 (Custom Triton kernels)을 통해 이러한 이점들을 실용적으로 구현했습니다. 이러한 결과는 동적 단기 컨볼루션이 Transformer 기반 언어 모델을 발전시키기 위한 확장 가능하고, 하드웨어 효율적이며, 표현력이 뛰어난 프리미티브임을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0