Preisach Attention: 순차적 메모리의 이력 현상 모델
요약
수리 물리학의 Preisach 이력 현상 모델을 활용한 새로운 시퀀스 모델링 아키텍처인 Preisach Attention Layer(PAL)를 제안합니다. PAL은 기존 softmax 어텐션을 대체하여 국소 극값 스택을 통해 효율적인 메모리 관리를 수행하며, 트랜스포머와 차별화된 계산 능력을 증명합니다.
핵심 포인트
- 이진 릴레이 연산자를 통한 새로운 어텐션 메커니즘 제안
- O(1) 깊이에서 튜링 완전성 달성 및 효율적 메모리 시뮬레이션
- 트랜스포머와 비교 불가능한 고유한 함수 클래스 증명
- 속도 독립적 특성을 통한 긴 에피소드 메모리 처리 최적화
- 표준 어텐션 대비 개선된 O(n log n) 추론 비용
우리는 수리 물리학의 고전적인 Preisach 이력 현상 연산자 (hysteresis operator)에 기반한 새로운 시퀀스 모델링 아키텍처인 Preisach Attention Layer (PAL)를 소개합니다. PAL은 학습 가능한 활성화 (activation) 및 비활성화 (deactivation) 임계값에 의해 매개변수화된 이진 릴레이 연산자 (binary relay operator)로 softmax 어텐션 (attention) 메커니즘을 대체하며, 내부 상태로서 국소 극값 (local extrema)의 스택을 유지합니다. O(1) 깊이를 가진 단일 레이어 PAL-Transformer는 임의 정밀도 산술 (arbitrary precision arithmetic) 하에서 튜링 완전 (Turing-complete)하며, 이는 표준 하드 어텐션 (hard-attention) 트랜스포머가 요구하는 O(log n) 깊이와 대조적으로, 두 개의 스택을 가진 푸시다운 오토마타 (pushdown automaton)의 시뮬레이션을 통해 달성 가능합니다. 둘째, 우리는 PAL과 트랜스포머에 의해 계산 가능한 함수 클래스 (function classes)가 서로 비교 불가능함을 증명합니다. PAL은 트랜스포머가 O(log n) 레이어를 필요로 하는 과거 범위 통계 (historical range statistics)를 O(1) 레이어 내에서 계산하는 반면, 트랜스포머는 PAL이 보조 상태 없이는 수행할 수 없는 임의 접근 검색 (random-access retrieval)을 지원합니다. 이러한 분리 특성은 속도 독립성 (rate-independence)입니다. PAL은 절대적인 토큰 위치나 시간적 간격이 아닌, 국소 극값의 시퀀스에만 반응합니다. 셋째, 우리는 극값 스택이 모든 속도 독립적 범함수 (rate-independent functionals)에 대해 입력 이력의 최소 충분 통계량 (minimal sufficient statistic)을 구성함을 보여주며, 이는 고전적인 이력 현상 이론에서의 와이핑 특성 (wiping property)에 대한 공식적인 유추를 제공합니다. 따라서 PAL은 긴 에피소드 메모리 (episodic memory)와 약한 위치 의존성을 가진 작업에 효율적인 아키텍처이며, 표준 어텐션의 O(n^2) 대비 O(n log n)의 총 추론 비용을 가집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기