arXiv논문2026. 06. 23. 12:30

모든 경로는 붕괴로 이어진다

요약

트랜스포머의 어텐션 싱크, 표현 붕괴, 노름 계층화 현상이 어텐션뿐만 아니라 모든 콘텐츠 기반 라우팅 메커니즘에서 발생하는 공통적 병리 현상임을 규명합니다. 소프트맥스 어텐션이 키의 크기를 인식하지 못하는 특성으로 인해 라우팅이 집중되고 표현이 붕괴됨을 수학적으로 분석합니다.

핵심 포인트

어텐션 싱크와 표현 붕괴는 범용적인 라우팅 메커니즘의 문제임
소프트맥스 어텐션은 키 노름을 인식하지 못하는 특성을 가짐
다양한 라우터(Graph Attention, SSM 등)에서 동일한 현상 확인
라우팅 메커니즘의 위치 제동(positional brake) 강도가 현상을 결정함

Attention sinks (어텐션 싱크), representation collapse (표현 붕괴), 그리고 norm stratification (노름 계층화)은 트랜스포머(Transformer) 특유의 병리 현상으로 다뤄져 왔습니다. 우리는 이것들이 어텐션(Attention)에만 국한된 것이 아님을 보여줍니다. 즉, 이것들은 고정된 유사도 메트릭 (similarity metric) 하에서 콘텐츠 기반 라우팅 (content-based routing)이 수행하는 방식 그 자체입니다. 우리는 재구성된 항등식 (reframing identity)을 제시합니다: softmax attention (소프트맥스 어텐션)은 키 노름 (key norms)이 일정한 상태에서 유클리드 거리 (Euclidean distances)에 대한 Boltzmann-weighted aggregation (볼츠만 가중 집계)이므로, 그 점수(score)는 $-|k|^2$ 항을 누락하며 키의 크기 (key magnitude)를 인식하지 못합니다. 이는 메트릭이 표현 (representations)과 제대로 맞지 않는 모든 라우터 (router)가 라우팅을 집중시키고 라우팅된 표현들을 붕괴시킴으로써 이를 보상해야 함을 예측합니다. 우리는 서로 다른 축을 통해 점수를 매기고 집계하는 라우터들을 대상으로 이를 테스트했습니다: 토큰에 대한 softmax attention (9개의 사전 학습된 트랜스포머), 노드에 대한 graph attention (그래프 어텐션), 시간에 따른 selective state-space model (선택적 상태 공간 모델) 및 recurrent mixer (순환 믹서), 그리고 깊이에 따른 learned residuals (학습된 잔차)가 그 대상입니다. 이들은 모두 동일한 특징 (signature)을 나타내며, 모델 내 두 가지 절제 연구 (ablations)를 통해 이것이 부수적인 역학 (incidental dynamics)이 아닌 라우팅 메커니즘 (routing mechanism)에 의해 발생함을 보여줍니다. 그 형태는 각 라우터가 콘텐츠 점수와 함께 보유하는 positional brake (위치 제동)의 강도에 따라 결정되며, 우리는 이 제동 장치를 조절하여 그 발생 시점을 전체 범위에 걸쳐 이동시켰습니다. 이 메커니즘은 우연적인 것이 아니며, norm stratification (노름 계층화)을 필요로 하지도 않습니다: 키가 norm-normalized (노름 정규화)된 라우터도 똑같이 집중 현상을 보입니다. 우리는 이 모델들이 리만 기하학 (Riemannian geometry)을 구현한다고 주장하는 것이 아닙니다. 기하학적 관점은 평탄하고 노름을 인식하지 못하는 메트릭 (flat, norm-blind metric)의 부적절함을 지칭하는 진단 도구입니다.

AI 자동 생성 콘텐츠

원문 바로가기

모든 경로는 붕괴로 이어진다

요약

핵심 포인트

댓글