본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 12:36

Multi-Mixer 모델: 공유 표현을 통한 유연한 시퀀스 모델링 (Flexible Sequence Modeling with Shared

요약

Oryx는 이차 attention과 선형 순환 모델 사이를 유연하게 전환할 수 있는 새로운 하이브리드 모델 아키텍처를 제안합니다. 매개변수의 90% 이상을 공유하여 효율적인 연산과 풍부한 문맥 활용을 동시에 달성하며, 1.4B 규모에서 기존 베이스라인보다 우수한 성능을 입증했습니다.

핵심 포인트

  • Attention과 선형 순환 모델 간의 유연한 전환 가능
  • 매개변수의 90% 이상을 공유하여 내부 표현 최적화
  • 긴 문맥 검색 및 인컨텍스트 학습 성능 강화
  • 1.4B 규모 모델에서 기존 단일 믹서 대비 성능 우위 확인

Softmax attention은 현대 대규모 언어 모델 (LLM)의 초석이지만, 메모리는 시퀀스 길이(sequence length)에 따라 선형적으로, 연산량(compute)은 이차적으로(quadratically) 증가합니다. 선형 attention (linear attention) 및 상태 공간 모델 (SSM)과 같은 선형 순환 모델 (linear recurrent models)은 선형 연산량과 일정한 메모리 사용량 덕분에 attention의 대안으로서 널리 연구되어 왔습니다. 이러한 하위 이차(sub-quadratic) 토큰 믹싱 (token mixing) 방식, 즉 믹서 (mixers)들은 다양한 벤치마크에서 유망한 효율성 향상과 경쟁력 있는 결과를 달성했지만, 현재의 선형 순환 모델들은 여전히 긴 문맥 검색 (long-context retrieval)이나 인컨텍스트 학습 (in-context learning)이 필요한 작업에서는 뒤처져 있습니다. attention과 순환 블록 (recurrent blocks)을 정적으로 교차 배치하거나 병합하여 이러한 트레이드오프 (trade-offs)를 완화하려는 하이브리드 아키텍처 (hybrid architectures)에 대한 연구가 늘어나고 있습니다. 본 연구에서는 하이브리드 모델을 개발하는 새로운 축인 '토큰 시퀀스 전반(across the token sequence)'을 탐구합니다. 우리는 시퀀스 전반에 걸쳐 서로 다른 믹서 사이를 유연하게 전환할 수 있는 하이브리드 모델인 Oryx를 제안합니다. 예를 들어, 풍부한 문맥 활용을 위한 이차 attention (quadratic attention)과 효율적인 생성을 위한 선형 순환 (linear recurrences) 사이를 전환할 수 있습니다. Oryx는 믹서 간에 매개변수 (parameters)의 최소 90%를 공유하여, attention 모드와 순환 모드가 공유된 내부 표현 (shared internal representations) 위에서 작동할 수 있도록 합니다. 우리는 Mamba-2 및 Gated DeltaNet 변형 모델을 사용하여 최대 1.4B 규모까지 설계의 유효성을 검증했습니다. 고정된 토큰 예산과 혼합 학습 (mixed-training) 전략 하에서, Oryx는 단일 믹서 베이스라인 (single-mixer baselines)과 대등하거나 더 나은 성능을 달성했습니다. 1.4B 규모에서 Oryx의 모든 사례는 평균 언어 모델링 (language modeling) 작업에서 각각의 베이스라인보다 최소 0.7 퍼센트 포인트 더 높은 성능을 보였습니다. 검색 작업 (retrieval tasks)에서 Oryx는 attention 모드에서 토큰의 아주 적은 부분(<10%)만 처리할 때도 Transformer 베이스라인과 대등한 성능을 달성했습니다. 이러한 결과는 attention과 선형 순환 모델이 내부 표현을 공유할 수 있음을 시사하며, 시퀀스 축 하이브리드화 (sequence-axis hybridization)가 유망한 방향임을 뒷받침합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0