decoder-only Transformer에서 절대적 위치(Absolute Position)는 어디에서 오는가?
요약
RoPE를 사용하는 Transformer가 상대적 위치 정보만 있음에도 절대적 위치를 인식하는 원인을 분석합니다. 인과적 마스크의 소프트맥스 분모 구조와 잔차 스트림을 통한 위치 0의 활성화 궤적 추적을 주요 원인으로 제시합니다.
핵심 포인트
- 인과적 마스크의 소프트맥스 분모가 절대적 위치에 의존함
- 잔차 스트림이 위치 0의 활성화를 통해 결정론적 지문을 전달
- Attention sinks가 토큰 고정형 안정화 장치 역할을 수행
- NTK 스케일링 및 슬라이딩 윈도우 어텐션이 이 메커니즘에 영향
RoPE(Rotary Positional Embedding)로 학습된 Transformer는 RoPE가 내적(inner product) 시 오직 상대적 오프셋(relative offsets)만을 인코딩함에도 불구하고, 어텐션 패턴(attention patterns)에서 절대적 위치를 구분해냅니다. 우리는 이러한 누출(leakage)의 원인을 두 가지 구조적 구성 요소로 추적합니다. 첫 번째는 인과적 마스크(causal mask)의 책임입니다. 인과적 마스크의 쿼리별 소프트맥스 분모(per-query softmax denominator)는 구조적으로 절대적 쿼리 위치(absolute query position)에 의존합니다. 두 번째는 잔차 스트림(residual stream)이 제공합니다. 인과적 어텐션(causal attention) 하에서 위치 $0$의 활성화(activation)는 자기 자신에게만 어텐션을 수행하며, 해당 위치 토큰의 임베딩(embedding)으로부터 폐쇄된 동적 시스템(closed dynamical system)으로서 작동합니다. 하류 어텐션(downstream attention)은 싱크 읽기 헤드(sink-reading heads)를 통해 이 궤적(trajectory)을 읽어들입니다. 두 구성 요소 모두 우리가 연구한 세 가지 아키텍처에서 아키텍처별로 특정한 균형을 이루며 나타납니다. NTK 스케일링(NTK scaling)은 잔차 스트림 구성 요소를 억제하고, 슬라이딩 윈도우 어텐션(sliding-window attention)은 깊이에 따라 이를 축적되게 하며, 표준 RoPE는 그 중간에 위치합니다. 순전파(forward pass) 전의 \texttt{BOS} 임베딩을 교체하면 초기 쿼리에서 잔차 스트림 구성 요소의 $40%$가 제거됩니다. 어텐션 싱크(Attention sinks)는 토큰에 고정된 안정화 장치(token-anchored stabilizers)로서, 위치 $0$에 있는 토큰의 결정론적 지문(deterministic fingerprint)을 전달하며, 해당 토큰이 자동으로 앞에 추가된 \texttt{BOS}인 경우 입력에 관계없이 일정하고 그렇지 않은 경우에는 토큰에 따라 변합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기