arXiv논문2026. 05. 12. 18:53

저온 영역에서 평균장 트랜스포머의 농축 현상 정량화

요약

본 논문은 트랜스포머 모델의 토큰 진화를 평균장 연속 방정식으로 분석하고, 추론 시간 동안 토큰 분포가 특정 극한 분포에 빠르게 농축됨을 수학적으로 증명했습니다. 다중 입자 시스템의 수렴 분석 기법을 활용하여, 토큰 분포가 키(key), 쿼리(query), 값(value) 행렬에 의해 유도되는 투영 사상 하에서 초기 분포의 푸시-포워드 위에 농축되며 준안정 상태를 유지함을 보였습니다. 또한, 온도 매개변수와 추론 시간에 따른 두 분포 간의 Wasserstein 거리를 정량적으로 분석하여 이론적 결과를 제시했습니다.

핵심 포인트

트랜스포머 모델의 토큰 진화 과정을 평균장 연속 방정식으로 수학적으로 모델링함.
토큰 분포가 키(K), 쿼리(Q), 값(V) 행렬에 의해 유도되는 투영 사상 하에서 특정 극한 분포로 빠르게 농축됨을 증명함.
Wasserstein 거리를 사용하여 온도($eta$)와 시간($t$)에 따른 두 분포의 수렴 속도를 정량적으로 분석함.
이론적 분석과 함께, 동역학이 값 행렬(V)의 스펙트럼에 의해 지배되는 종단 단계로 진입함을 보여줌.

자체 어텐션(self-attention) 모듈을 핵심 구성 요소로 하는 트랜스포머는 현대 대규모 언어 모델 및 파운데이션 모델에서 필수적인 아키텍처가 되었습니다. 본 논문에서는 추론 시간 동안 깊은 인코더 전용 트랜스포머의 토큰 진화를 연구하며, 이는 큰 토큰 한계(large-token limit)에서 평균장 연속 방정식(mean-field continuity equation)으로 기술됩니다. 상호작용하는 다중 입자 시스템의 수렴 분석에서 아이디어를 활용하여, 여기서 입자는 토큰에 해당한다는 것을 이용하여, 우리는 토큰 분포가 키(key), 쿼리(query), 값(value) 행렬에 의해 유도되는 투영 사상(projection map) 하에서의 초기 분포의 푸시-포워드(push-forward) 위에 빠르게 농축되며, 적당한 시간 동안 준안정 상태(metastable)를 유지함을 증명합니다. 구체적으로, 우리는 온도 매개변수 $eta^{-1} o 0$ 및 추론 시간 $t
geq 0$에 대해 두 분포의 Wasserstein 거리가 $rac{ ext{log}(eta+1)}{eta}^{1/2} ext{exp}(Ct)+ ext{exp}(-ct)$와 같이 스케일링함을 보여줍니다. 증명을 위해, 우리는 영온도 방정식(zero-temperature equation)에 대한 Lyapunov 유형 추정치(Lyapunov-type estimates)를 확립하고, $t o ext{inf}$에서의 극한을 식별하며, Wasserstein 공간에서 안정성 추정치와 정량적 라플라스 원리(quantitative Laplace principle)를 결합하여 두 방정식을 연결합니다. 우리의 결과는 시간 규모가 $ ext{log}eta$ 순서일 때 토큰 분포가 식별된 극한 분포에 농축됨을 의미합니다. 수치 실험은 이를 확인하며, 나아가 유한한 $eta$와 큰 $t$에 대해 동역학이 값 행렬의 스펙트럼(spectrum)에 의해 지배되는 다른 종단 단계(terminal phase)로 진입함을 보여주면서 우리의 이론을 보완합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저온 영역에서 평균장 트랜스포머의 농축 현상 정량화

요약

핵심 포인트

댓글