본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 13:08

완전한 베이즈 프로세스로서의 Transformer 아키텍처: 측도론적 커널 프레임워크에서의 형식적 증명

요약

Transformer 아키텍처가 측도론적 커널 프레임워크 내에서 베이즈 사후 추론을 구현함을 수학적으로 증명합니다. QKV 및 attention 메커니즘이 베이즈 결합 분포 조건을 충족할 때 순전파 계산이 엄격한 베이즈 업데이트와 동일함을 보입니다.

핵심 포인트

  • Transformer의 내부 메커니즘이 베이즈 사후 추론을 구현함을 형식적으로 증명
  • 측도론적 커널 프레임워크를 통한 계층적 추상화 정의
  • 라돈-니코딤 미분을 활용한 블록 수준의 베이즈 공식 도출
  • Softmax attention이 유효한 확률 분포를 유도함을 입증

우리는 Transformer 아키텍처의 내부 업데이트 메커니즘이 베이즈 결합 분포 조건 (Bayes joint-distribution condition)을 충족할 때, 정확한 베이즈 사후 추론 (Bayesian posterior inference)을 구현한다는 완전한 형식적 증명을 제시합니다. 측도론적 커널 프레임워크 (measure-theoretic kernel framework) 내에서, 우리는 핵심 베이즈 Transformer부터 명시적인 업데이트 커널을 가진 시맨틱 Transformer, QKV/attention/residual/MLP 파이프라인을 갖춘 전체 Transformer 블록, 그리고 최종적으로 다층 스택에 이르기까지 추상화의 계층을 정의하며, 각 단계에서 베이즈 결합 의미론 (Bayes joint semantics)이 업데이트 커널이 거의 모든 곳에서 사후 분포 (posterior)와 같음을 의미한다는 것을 증명합니다. 블록 수준의 아키텍처에 대해, 우리는 라돈-니코딤 미분 (Radon-Nikodym differentiation)을 통해 명시적인 베이즈 공식을 도출하고 그 정규화 (normalization)를 증명합니다. 추가적으로 우리는 softmax attention 메커니즘이 키 (keys)에 대해 유효한 확률 분포를 유도함을 증명하여, 추상적인 커널 프레임워크와 구체적인 attention 구현 사이의 가교를 구축합니다. 이 프레임워크는 마르코프 커널 (Markov kernel) 구조 이외의 아키텍처적 가정을 하지 않으며, Transformer 블록이 증명 가능하게 베이즈 방식이 되는 명시적인 조건을 드러냅니다. 본질적으로, 이 결합 분포 조건이 충족될 때, Transformer의 순전파 계산 (forward computation)은 엄격한 베이즈 사후 업데이트 (Bayesian posterior update)와 형식적으로 동일합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0