심층 Transformer에서의 적응형 추론(Adaptive inference) 및 함수 벡터(function vectors)
요약
심층 Transformer를 평균장 상호작용 시스템으로 해석하여 내부 메커니즘을 분석한 연구입니다. 함수 벡터를 통해 레이어를 거치며 잠재적 문맥 변수를 추론하는 적응형 추론 과정을 이론적으로 규명했습니다.
핵심 포인트
- Transformer를 분산 추론을 수행하는 평균장 상호작용 시스템으로 정의
- 함수 벡터를 활용한 계층적 잠재 문맥 변수 추론 메커니즘 규명
- Transformer 깊이와 문맥 변수의 비가우시안 구조 간 관계 예측
- 피드포워드 블록과 깊이가 인컨텍스트 학습 성능에 미치는 영향 입증
Transformer는 대규모 결합 변수 집합 사이의 복잡한 상관관계를 학습하기 위한 범용 기질(substrate)로 널리 사용되고 있지만, 그 내부 메커니즘은 여전히 미스터리로 남아 있습니다. 우리는 통신, 국소성(locality) 및 깊이(depth)에 대한 제약 조건 하에서 분산 추론(distributed inference)을 구현하는 평균장 상호작용 시스템(mean-field interacting system)으로서의 심층 Transformer 이론을 소개합니다. 우리는 이러한 시스템이 내부 상태 표현('함수 벡터 (function vectors)')을 활용하여 레이어를 거치며 점점 더 미세한 스케일로 잠재적 문맥 변수(latent context variable)를 추론할 수 있음을 보여줍니다. 인컨텍스트 회귀(in-context regression) 작업에서, 이 이론은 잠재적 문맥 변수의 비가우시안(non-Gaussian) 계층적 구조와 Transformer 깊이 사이의 비자명한(non-trivial) 관계를 예측합니다. 이러한 예측은 제약 조건이 있는 선형 어텐션(linear attention) Transformer를 사용하여 테스트되었으며, 심층 아키텍처에서의 적응형 추론(adaptive inference)을 입증합니다. 피드포워드 블록(Feedforward blocks)과 깊이는 Transformer가 이전에 설명된 것보다 훨씬 더 풍부한 클래스의 인컨텍스트 학습(in-context learning) 알고리즘을 구현할 수 있게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기