arXiv논문2026. 04. 30. 15:11

심층 트랜스포머 모델에서의 확률적 스케일링 극한과 소음에 의한 동기화

요약

본 논문은 유한 깊이와 너비를 가진 트랜스포머 모델의 MLP 블록을 갖는 토큰 계층별 진화 경로가 연속 시간 확률적 상호작용 입자 시스템으로 수렴함을 증명합니다. 나아가, 이 극한에서 토큰 분포의 진화를 설명하는 확률적 편미분방정식을 도출하고, 토큰 수가 많을 때 혼돈 전파를 확립했습니다. 또한, 제한된 확률적 모델이 소음에 의한 동기화 현상을 보이며, 이는 결정론적 드리프트보다 공통 소음이 충분히 강압적일 때 상호작용 에너지가 지수적으로 소산됨을 보여줍니다.

핵심 포인트

트랜스포머 모델의 계층별 진화를 연속 시간 확률적 시스템으로 근사하여 분석했습니다.
토큰 분포의 극한 거동을 설명하는 확률적 편미분방정식(SPDE)을 규명하고 혼돈 전파를 증명했습니다.
제한된 확률적 모델에서 소음에 의한 동기화 현상을 수학적으로 입증했습니다.
상호작용 에너지의 지수적 소산은 공통 소음이 결정론적 드리프트보다 충분히 강압적일 때 발생함을 밝혔습니다.

우리는 유한 깊이, 유한 너비의 트랜스포머 모델에서 다층 퍼셉트론 (MLP) 블록을 갖는 토큰의 계층별 진화의 경로별 수렴성을 연속 시간 확률적 상호작용 입자 시스템으로 증명합니다. 또한 이 극한에서 토큰의 분포 진화를 기술하는 확률적 편미분방정식을 규명하고, 이러한 토큰의 수가 많을 때 혼돈 전파 (propagation of chaos) 를 증명합니다. 우리가 수립한 경계는 정량적이며, 고려하는 극한들은 교환 가능합니다. 우리는 또한 제한된 확률적 모델이 소음에 의한 동기화 (synchronization by noise) 를 보인다는 것을 추가로 증명하며, 결정론적 자체 주의력 (self-attention) 드리프트에 비해 공통 소음이 충분히 강압적이 (coercive) 여야 평균적으로 상호작용 에너지가 지수적으로 소산함을 규명합니다. 마지막으로 이 전자의 조건을 만족하는 활성화 함수들을 특징짓습니다.

AI 자동 생성 콘텐츠

원문 바로가기

심층 트랜스포머 모델에서의 확률적 스케일링 극한과 소음에 의한 동기화

요약

핵심 포인트

댓글