arXiv논문2026. 05. 04. 19:33

트랜스포머의 로컬 어텐션 표현력 분석

요약

본 논문은 트랜스포머의 핵심 메커니즘인 어텐션에 초점을 맞추어, 로컬 어텐션이 단순한 효율성 개선을 넘어 모델의 표현력(recognizer expressivity)을 형식적으로 확장함을 증명합니다. 전역 어텐션을 사용하는 트랜스포머는 특정 선형 시간 논리 부분집합에 해당하며, 여기에 로컬 어텐션을 추가하면 인식 가능한 규칙 언어 클래스가 엄격하게 확장됩니다. 연구진은 이 두 메커니즘이 상호 보완적이며, 하이브리드 전역-로컬 구조가 가장 풍부한 표현력을 제공함을 보여줍니다.

핵심 포인트

트랜스포머의 전역 어텐션(Global Attention)은 계산 비용을 높이지만, 특정 선형 시간 논리의 부분집합에 해당한다는 것이 형식적으로 증명되었습니다.
로컬 어텐션(Local Attention)은 정보 집계 범위를 제한하여 계산 복잡도를 줄이는 동시에, 모델의 표현력을 확장하는 역할을 합니다.
전역 및 로컬 어텐션은 서로를 포함하지 않으며, 두 가지를 결합한 하이브리드 구조가 가장 풍부하고 우월한 언어 인식 능력을 가집니다.
이러한 발견은 형식 언어 이론(Formal Language Theory)을 사용하여 자연어 모델링의 아키텍처적 한계를 분석하는 새로운 관점을 제시합니다.

트랜스포머는 언어 모델링에서 가장 인기 있는 신경망 구조입니다. 트랜스포머의 핵심은 모든 이전 토큰의 정보를 다음 토큰 생성 전에 집계할 수 있게 해주는 전역 어텐션 (global attention) 메커니즘입니다. 어텐션의 일반적인 변형으로 로컬 어텐션 (local attention) 이 있으며, 이는 각 토큰이 유한한 윈도우의 이전 토큰만 정보를 집계하도록 제한하여 전역 어텐션의 제곱 비용 (quadratic cost) 을 선형으로 줄입니다. 이러한 제한은 주로 효율성을 위해 도입되었으나, 모델 품질을 향상시키는 것으로도 발견되었으며, 이 현상은 아직 만족스러운 설명이 부족했습니다. 우리는 이를 인식기 표현력 (recognizer expressivity) 관점에서 형식적으로 설명합니다. 고정 정밀도의 트랜스포머가 전역 어텐션을 사용할 경우, 단일 과거 연산자 (past operator) 를 포함하는 선형 시간 논리 (linear temporal logic) 의 부분집합에 해당한다는 것이 증명되었습니다. 또한 로컬 어텐션을 추가하면 두 번째 시간 연산자가 도입되어 인식 가능한 규칙 언어 클래스가 엄격히 확장됩니다. 더 나아가 전역 어텐션과 로컬 어텐션은 표현력적으로 상호 보완적입니다: 서로를 포함하지 않으며, 둘을 결합할 때 가장 풍부한 부분집합을 얻습니다. 형식 언어 인식 (formal language recognition) 과 자연어 모델링 실험은 이 이론을 지지하며, 하이브리드 전역-로컬 트랜스포머가 전역만 사용하는 대응물보다 우월함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

트랜스포머의 로컬 어텐션 표현력 분석

요약

핵심 포인트

댓글