arXiv논문2026. 06. 01. 12:05

구조화된 일반화 선형 토큰 믹싱을 통한 표현력을 위한 복잡도 트레이드오프

요약

본 논문은 토큰 믹싱 레이어의 효율성과 표현력 사이의 트레이드오프를 분석하는 통합 프레임워크를 제안합니다. 어텐션과 상태 공간 모델을 아우르는 일반화된 재귀 방정식을 통해, 실행 시간과 모델 표현력을 원칙적으로 교환할 수 있는 새로운 설계 방식을 제시합니다.

핵심 포인트

토큰 믹싱의 효율성과 메모리/속도 간 트레이드오프 분석
입력 영향력과 재귀적 정보 전파를 분리한 통합 프레임워크 제안
다중 과거 상태에 의존하는 일반화된 재귀 방정식 설계
실행 시간과 표현력 사이의 이론적 통찰 및 설계 툴킷 제공

토큰 믹싱 (Token mixing) 레이어는 언어 모델이 장기 의존성 (long-range dependencies)을 학습하고 생성하는 방식에서 핵심적인 역할을 수행합니다. 이들의 효율성은 디코딩 속도 (decoding speed)와 메모리 요구 사항 (memory requirements) 및 캐시 크기 (cache size) 사이의 필수적인 트레이드오프 (trade-off)에 달려 있습니다. 인과적 생성 (causal generation)을 고려할 때, 본 논문은 두 가지 중요한 특징을 분리하는 통합 프레임워크를 통해 새로운 트레이드오프를 탐구합니다: (i) 한 번의 생성 단계에서 입력이 출력에 미치는 직접적인 영향; (ii) 과거 출력을 통한 정보의 재귀적 전파 (recurrent propagation). 이 프레임워크는 어텐션 (attention) 및 상태 공간 모델 (state-space models)과 같은 주요 아키텍처를 아우르지만, 각 상태가 직전의 상태뿐만 아니라 여러 과거 상태에 의존할 수 있도록 함으로써 재귀 방정식 (recurrence equations)을 일반화합니다. 구조를 도입함으로써, 우리는 원하는 복잡도를 증명 가능하게 달성하는 새로운 재귀 패턴을 설계하는 동시에, 이들의 표현력 (expressivity)에 대한 이론적 통찰을 제공합니다 — 즉, 원칙적인 방식으로 실행 시간 (runtime)을 표현력과 교환합니다. 합성 작업 (synthetic tasks) 및 언어 모델링 (language modeling)을 통해 실증적 검증을 수행합니다. 이러한 결과들을 종합하면, 모델 제품군 전반에 걸쳐 효율적이고 표현력이 뛰어난 토큰 믹서 (token mixers)를 이해하고 설계하기 위한 통합된 툴킷을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

구조화된 일반화 선형 토큰 믹싱을 통한 표현력을 위한 복잡도 트레이드오프

요약

핵심 포인트

댓글