arXiv논문2026. 06. 16. 12:50

심층 Transformer에서의 적응형 추론(Adaptive inference) 및 함수 벡터(function vectors)

요약

심층 Transformer를 평균장 상호작용 시스템으로 해석하여 내부 메커니즘을 분석한 연구입니다. 함수 벡터를 통해 레이어를 거치며 잠재적 문맥 변수를 추론하는 적응형 추론 과정을 이론적으로 규명했습니다.

핵심 포인트

Transformer를 분산 추론을 수행하는 평균장 상호작용 시스템으로 정의
함수 벡터를 활용한 계층적 잠재 문맥 변수 추론 메커니즘 규명
Transformer 깊이와 문맥 변수의 비가우시안 구조 간 관계 예측
피드포워드 블록과 깊이가 인컨텍스트 학습 성능에 미치는 영향 입증

Transformer는 대규모 결합 변수 집합 사이의 복잡한 상관관계를 학습하기 위한 범용 기질(substrate)로 널리 사용되고 있지만, 그 내부 메커니즘은 여전히 미스터리로 남아 있습니다. 우리는 통신, 국소성(locality) 및 깊이(depth)에 대한 제약 조건 하에서 분산 추론(distributed inference)을 구현하는 평균장 상호작용 시스템(mean-field interacting system)으로서의 심층 Transformer 이론을 소개합니다. 우리는 이러한 시스템이 내부 상태 표현('함수 벡터 (function vectors)')을 활용하여 레이어를 거치며 점점 더 미세한 스케일로 잠재적 문맥 변수(latent context variable)를 추론할 수 있음을 보여줍니다. 인컨텍스트 회귀(in-context regression) 작업에서, 이 이론은 잠재적 문맥 변수의 비가우시안(non-Gaussian) 계층적 구조와 Transformer 깊이 사이의 비자명한(non-trivial) 관계를 예측합니다. 이러한 예측은 제약 조건이 있는 선형 어텐션(linear attention) Transformer를 사용하여 테스트되었으며, 심층 아키텍처에서의 적응형 추론(adaptive inference)을 입증합니다. 피드포워드 블록(Feedforward blocks)과 깊이는 Transformer가 이전에 설명된 것보다 훨씬 더 풍부한 클래스의 인컨텍스트 학습(in-context learning) 알고리즘을 구현할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

심층 Transformer에서의 적응형 추론(Adaptive inference) 및 함수 벡터(function vectors)

요약

핵심 포인트

댓글