토큰의 영향력이 거리에 따라 어떻게 감소하는가: 학습된 언어 모델의 그린 함수(Green-Function) 관점
요약
Transformer 언어 모델에서 토큰 간의 영향력이 거리에 따라 어떻게 감소하는지 그린 함수 관점에서 분석한 연구입니다. 실험 결과, 토큰 간 민감도는 지수적 감소가 아닌 멱법칙(power-law) 유형을 따르며, 이는 학습된 모델의 고유한 특성임을 밝혀냈습니다.
핵심 포인트
- 토큰 간 영향력 감소는 멱법칙(power-law) 유형을 따름
- 장거리 민감도는 학습된 모델의 고유한 특성임
- 그린 함수 관점을 통한 토큰 의존성 분석 방법론 제시
- Pythia 및 Qwen2.5 모델을 통한 실험적 검증 완료
우리는 자기회귀(autoregressive) Transformer 언어 모델의 다음 토큰 예측(next-token prediction)이 이전 입력 토큰 임베딩(embedding)의 작은 섭동(perturbation) 하에서 어떻게 변화하는지 연구합니다. 연산자 학습(operator learning) 및 미분 방정식(differential equations)을 위한 반복 솔버(iterative solvers)에서 영감을 얻어, 우리는 학습된 모델에서 한 토큰이 다른 토큰에 미치는 영향력이 거리에 따라 어떻게 감소하는지 조사합니다. 도메인 분해(domain decomposition), 멀티그리드(multigrid), 멀티레벨 프리컨디셔닝(multilevel preconditioning)과 같은 미분 방정식의 다층적 방법(multilevel methods)에서는 종종 강력한 국소적 상호작용(local interactions)과 약하지만 필수적인 전역적 상호작용(global interactions) 사이의 분리를 활용합니다. 후자는 그린 함수(Green's function)의 롱 테일(long tail)에 해당하며 일반적으로 조립 수준 연산자(coarse-level operator)에 의해 처리됩니다. 이러한 관점에 영감을 받아, 우리는 자동 미분(autograd)을 사용하여 토큰 의존성(token dependencies)의 경험적이고 거리별로 분해된 그래디언트 프로파일(gradient profile)을 계산합니다. 학습된 Pythia 모델과 Qwen2.5-0.5B에 대한 실험 결과, 측정된 거리 범위 내에서 중앙값 자코비안 민감도(median Jacobian sensitivity)는 지수적 대안(exponential alternative)보다 멱법칙 유형의 감소(power-law-type decay)에 의해 훨씬 더 잘 설명됨을 보여줍니다. 즉, 대각선 정규화된 프로파일은 $$\overline G(r) \approx γ+β(r+1)^{-p}$$로 잘 설명되며, 이때 지수는 $p \approx 0.7$--$0.9$ (일반적으로 $0.8$--$0.9$)입니다. 이러한 동작은 Gutenberg 및 WikiText-103의 일관된 텍스트에서 나타납니다. 토큰 셔플링(Token-shuffling) 실험은 구문(syntax)과 예측 품질이 붕괴될 때도 멱법칙 프로파일이 지속되는 반면, 무작위로 초기화된 모델은 이를 보이지 않음을 보여줍니다. 따라서 느리게 감소하는 장거리 민감도(long-range sensitivity)는 학습된 자기회귀 Transformer 연산자의 학습된 특성(learned property)인 것으로 보입니다. 이러한 발견은 언어 모델의 계층적 또는 조립 수준 메커니즘(hierarchical or coarse-level mechanisms)이 롱테일 민감도 프로파일을 활용할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기