The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons
요약
본 논문은 대규모 언어 모델(LLMs)에서 발생하는 '주의 싱크(Attention Sink)' 현상의 구조적 기원을 규명합니다. 이 현상은 자기 주의 메커니즘의 값 집계 과정에서 발생하는 체계적인 분산 불일치와, 이를 Feed-Forward Network (FFN) 레이어 내의 슈퍼 뉴런 활성화가 증폭시키기 때문에 발생합니다. 연구진은 두 가지 통제된 개입을 통해 이 인과 관계를 검증하고, 궁극적으로 값 집계 출력의 안정성을 보장하는 'head-wise RMSNorm'이라는 새로운 정규화 기법을 제안하여 모델 훈련 속도를 가속화할 수 있음을 입증했습니다.
핵심 포인트
- Attention Sink 현상은 단순한 관찰이 아니라, 자기 주의 메커니즘의 값 집계 과정에서 발생하는 구조적 분산 불일치에 기인한다.
- FFN 레이어 내 채널 희소 다운프로젝션은 이 분산 불일치를 증폭시켜 Attention Sink 형성을 촉진하는 핵심 역할을 한다.
- 연구팀은 주의 마스크 수정 및 표적 토큰 표현의 분산 증폭이라는 두 가지 개입을 통해 싱크 현상이 인과적으로 발생함을 입증했다.
- 제안된 'head-wise RMSNorm'은 값 집계 출력의 안정성을 보장하여, 위치 간 통계적 균형을 복원하고 모델 수렴 속도를 크게 가속화한다.
대규모 언어 모델 (LLMs) 에서 초기 토큰이 주의를 불균형하게 독점하는 attention sink 현상이 널리 퍼져 있음에도 불구하고, 그 구조적 기원은 여전히 수수께끼입니다. 이 작업은 이 현상에 대한 extit{기계론적 설명} 을 제공합니다. 먼저, 우리는 이 현상의 근원을 자기 주의 (self-attention) 에 내재된 값 집계 과정에 추적합니다. 이는 체계적인 분산 불일치를 유발합니다. 또한, 이 불일치가 Feed-Forward Network (FFN) 레이어 내의 super neurons 활성화로 인해 극적으로 증폭됨을 보여줍니다. 구체적으로, 채널 희소 (channel-sparse) 다운프로젝션은 첫 번째 토큰 표현의 차원 불일치를 유발하며, 이는 구조적 앵커로서 attention sink 의 형성을 필요로 합니다. 그런 다음, 우리는 두 가지 통제된 개입을 통해 이 인과 관계를 검증합니다: (i) 주의 마스크 수정을 통한 집계 효과 분리 및 (ii) 표적 토큰 표현의 분산 증폭. 두 개입 모두 임의 위치에서 attention sink 를 복제할 수 있습니다. 우리의 기계론적 이해는 sink 형성의 체계적 통제를 위한 기반을 제공합니다. 마지막으로, 개념 증명으로서 우리는 extit{head-wise RMSNorm} 을 제안하며, 이는 전 훈련 (pre-training) 도중 값 집계 출력의 안정성을 보장합니다. 우리의 실험은 위치 간 통계적 균형을 복원함으로써 수렴 속도를 크게 가속화함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기