arXiv논문2026. 06. 02. 12:23

Forget Attention: 중요도 인지 어텐션(Importance-Aware Attention)이면 충분하다

요약

Transformer의 전역 검색 능력과 SSM의 순차적 중요도 인지 능력을 결합한 새로운 하이브리드 모델링 방식인 SISA를 제안합니다. SISA는 별도의 커스텀 커널 없이 어텐션 점수 내에 SSM의 중요도 항을 직접 통합하여 연산 효율성과 성능을 동시에 확보했습니다.

핵심 포인트

SSM의 중요도 신호를 어텐션 점수에 직접 통합하는 SISA 제안
기존 Jamba, Hymba와 달리 점수 수준의 융합(score-level fusion) 구현
LAMBADA-greedy 및 NIAH 벤치마크에서 기존 모델 대비 우수한 성능 입증
표준 SDPA를 사용하여 별도의 커스텀 커널이나 순환 상태가 필요 없음

어텐션(Attention)의 전역적 검색(global retrieval) 능력과 상태 공간 모델(State Space Models, SSMs)의 순차적 중요도 신호(sequential importance signal)를 결합하는 것은 하이브리드 언어 모델링(hybrid language modeling)의 미해결 과제입니다. Transformer는 모든 곳을 보지만 우선순위를 정하지 못하며, SSM은 무엇이 중요한지는 알지만 다시 방문할 수 없습니다. 기존의 하이브리드 모델인 Jamba(블록 수준)와 Hymba(헤드 수준)는 이 두 가지를 별도의 구획에 배치하므로, 어텐션 연산 과정 자체에서 서로에게 정보를 제공하지 못합니다. 우리는 SSM에서 유도된 중요도 항(importance term)을 어텐션 점수(attention score) 내부에 직접 추가하고, 증강된 쿼리/키(query/key) 벡터에 대한 단일 SDPA 호출을 통해 전체 연산을 구현하는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 순환 상태(recurrent state)나 커스텀 커널(custom kernel)을 필요로 하지 않습니다. 152M / 5B 토큰 기준, SISA는 LAMBADA-greedy에서 17.3%를 달성하였으며(Transformer 13.9%, Mamba-3 15.5% 대비), 1K 스텝부터 NIAH(Needle In A Haystack) 100%를 달성하여 Transformer의 검색 수렴(retrieval convergence)보다 7배 더 빠릅니다. 369M 기준으로는 Mamba-3가 LAMBADA를 선도하지만, SISA는 완벽한 NIAH 성능과 표준 SDPA 실행을 유지합니다. 따라서 SISA는 기존 분야를 지배해 온 블록 수준 및 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Forget Attention: 중요도 인지 어텐션(Importance-Aware Attention)이면 충분하다

요약

핵심 포인트

댓글