본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 14:08

MuonSSM: 시퀀스 모델링을 위한 직교화된 상태 공간 모델 (State Space Models)

요약

MuonSSM은 기존 상태 공간 모델(SSM)의 불안정성과 메모리 저하 문제를 해결하기 위해 업데이트 기하학을 명시적으로 조건화하는 새로운 프레임워크입니다. 뉴턴-슐츠 변환을 통해 병렬 스캔 복잡도를 유지하면서도 그래디언트 전파와 긴 컨텍스트 성능을 크게 개선했습니다.

핵심 포인트

  • SSM의 업데이트 기하학을 조건화하여 학습 안정성 확보
  • 뉴턴-슐츠 변환을 통한 경량화된 스펙트럼 조건화 구현
  • 긴 시퀀스 모델링에서의 메모리 표현력 및 견고성 향상
  • 언어, 비전, 시계열 벤치마크에서 일관된 성능 이득 증명

상태 공간 모델 (State Space Models, SSMs)은 긴 시퀀스 모델링 (long-sequence modeling)을 위해 어텐션 (attention)을 대체할 수 있는 효율적인 선형 시간 (linear-time) 대안으로 부상했습니다. 그러나 기존의 SSM은 조건화가 잘 되지 않은 1차 업데이트 (first-order updates)와 불균형한 업데이트 기하학 (unbalanced update geometry)으로 인해, 확장된 범위 (extended horizons)에서 불안정성과 메모리 저하 (memory degradation) 문제를 겪는 경우가 많습니다. 우리는 순환 전이 행렬 (recurrent transition matrix) 대신 메모리 업데이트의 기하학을 명시적으로 조건화함으로써 SSM 학습을 안정화하는 일반적인 프레임워크인 MuonSSM을 소개합니다. MuonSSM은 모멘텀 기반 경로 (momentum-based pathway)와 저계수 입력 주입 (low-rank input injections)에 대한 경량 뉴턴-슐츠 변환 (Newton-Schulz transformation)을 통해 SSM을 증강하며, 병렬 스캔 복잡도 (parallel scan complexity)를 유지하면서도 유계되고 스펙트럼 조건화된 (spectrally conditioned) 업데이트를 생성합니다. 이론적으로 MuonSSM은 그래디언트 전파 (gradient propagation)를 개선하고, 스펙트럼 증폭 (spectral amplification)을 완화하며, 긴 범위에 걸쳐 메모리 표현 (memory representations)을 풍부하게 함을 보여줍니다. 언어, 비전 및 시계열 벤치마크 전반에 걸친 광범위한 실험 결과, 다양한 SSM 백본 (backbones)에 통합되었을 때 정확도, 견고성 (robustness) 및 긴 컨텍스트 성능 (long-context performance)에서 일관된 이득을 보여주었습니다. 이러한 결과는 업데이트의 기하학적 조건화 (geometric conditioning)가 안정적이고 확장 가능한 시퀀스 모델링을 위한 원칙적인 경로임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0