심층 트랜스포머 모델에서의 확률적 스케일링 극한과 소음에 의한 동기화
요약
본 논문은 유한 깊이와 너비를 가진 트랜스포머 모델의 MLP 블록을 갖는 토큰 계층별 진화 경로가 연속 시간 확률적 상호작용 입자 시스템으로 수렴함을 증명합니다. 나아가, 이 극한에서 토큰 분포의 진화를 설명하는 확률적 편미분방정식을 도출하고, 토큰 수가 많을 때 혼돈 전파를 확립했습니다. 또한, 제한된 확률적 모델이 소음에 의한 동기화 현상을 보이며, 이는 결정론적 드리프트보다 공통 소음이 충분히 강압적일 때 상호작용 에너지가 지수적으로 소산됨을 보여줍니다.
핵심 포인트
- 트랜스포머 모델의 계층별 진화를 연속 시간 확률적 시스템으로 근사하여 분석했습니다.
- 토큰 분포의 극한 거동을 설명하는 확률적 편미분방정식(SPDE)을 규명하고 혼돈 전파를 증명했습니다.
- 제한된 확률적 모델에서 소음에 의한 동기화 현상을 수학적으로 입증했습니다.
- 상호작용 에너지의 지수적 소산은 공통 소음이 결정론적 드리프트보다 충분히 강압적일 때 발생함을 밝혔습니다.
우리는 유한 깊이, 유한 너비의 트랜스포머 모델에서 다층 퍼셉트론 (MLP) 블록을 갖는 토큰의 계층별 진화의 경로별 수렴성을 연속 시간 확률적 상호작용 입자 시스템으로 증명합니다. 또한 이 극한에서 토큰의 분포 진화를 기술하는 확률적 편미분방정식을 규명하고, 이러한 토큰의 수가 많을 때 혼돈 전파 (propagation of chaos) 를 증명합니다. 우리가 수립한 경계는 정량적이며, 고려하는 극한들은 교환 가능합니다. 우리는 또한 제한된 확률적 모델이 소음에 의한 동기화 (synchronization by noise) 를 보인다는 것을 추가로 증명하며, 결정론적 자체 주의력 (self-attention) 드리프트에 비해 공통 소음이 충분히 강압적이 (coercive) 여야 평균적으로 상호작용 에너지가 지수적으로 소산함을 규명합니다. 마지막으로 이 전자의 조건을 만족하는 활성화 함수들을 특징짓습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기