유계 깊이 문법(bounded-depth grammars)을 통한 딥 트랜스포머(deep transformers) 내 계층적 모델링의 표현력
요약
본 연구는 딥 트랜스포머가 계층적 구조를 어떻게 표현하는지 유계 깊이 문법(bounded-depth grammars) 관점에서 분석합니다. 트랜스포머가 문법 상태를 잔차 스트림 내 선형 분리 가능한 부분 공간으로 인코딩할 수 있음을 이론적으로 입증하여 선형 표현 가설을 뒷받침합니다.
핵심 포인트
- 유계 깊이 비재귀적 문맥 자유 문법을 통한 트랜스포머 표현력 분석
- 문법 깊이에 따라 선형적으로 증가하는 트랜스포머 아키텍처 구축
- 잔차 스트림 내 저차원 선형 분리 가능 부분 공간 인코딩 입증
- 선형 표현 가설(linear representation hypothesis)에 대한 이론적 근거 제시
심층 신경망(Deep neural networks)은 레이어를 거치며 점진적으로 더 추상적이고 구성적인 특징을 포착하는 extbf{계층적 표현(hierarchical representations)}을 형성하는 능력으로부터 그 표현력을 얻는다고 널리 믿어지고 있습니다. 언어 모델링(language modeling)에서 extbf{트랜스포머(transformers)}는 지배적인 아키텍처로 부상하였으며, 초기 레이어는 국소적인 구문 패턴(local syntactic patterns)을 포착하고 후기 레이어는 더 복잡한 절 수준의 의존성(clause-level dependencies)을 인코딩합니다. 이러한 직관이 모델 설계에 영향을 미쳤지만, 딥 트랜스포머가 extbf{어떻게} 그러한 계층적 구조를 표현하는지를 입증하는 엄밀한 이론적 연구는 여전히 부족한 실정입니다. 본 연구에서는 유계 깊이의 비재귀적 문맥 자유 문법(bounded-depth, non-recursive context-free grammars)이라는 형식적 관점을 통해 딥 트랜스포머 모델의 표현력을 분석합니다. 이 문법 클래스에 대해, 우리는 문법 깊이에 따라 선형적으로 증가하는 깊이를 가지며, 뉴런 수는 유도 트리(derivation-tree) 형태의 수에 비례하고 생성 규칙(production rules)의 수에 제곱 비례하여 확장되는 위치 주의(positional attention)를 가진 트랜스포머를 명시적으로 구축합니다. 우리의 이론적 결과는 이러한 아키텍처가 추상적인 문법 상태를 잔차 스트림(residual stream) 내의 저차원이며 선형적으로 분리 가능한 부분 공간(linearly separable subspaces)으로 인코딩할 수 있는 구조적 능력을 갖추고 있음을 입증함으로써 선형 표현 가설(linear representation hypothesis)을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기