Erase-then-Delta Attention: Delta-Rule 선형 어텐션에서 삭제와 쓰기 주소의 분리
요약
Erase-then-Delta Attention(EDA)은 선형 어텐션의 메모리 업데이트를 개선하기 위해 삭제와 쓰기 주소를 분리한 새로운 메커니즘을 제안합니다. 기존 델타 규칙의 한계를 넘어 오래된 정보를 선택적으로 제거함으로써 장문맥 처리 성능을 극대화합니다.
핵심 포인트
- 삭제와 쓰기 방향을 분리하여 메모리 관리 능력 확장
- Dense 및 MoE 모델 실험을 통해 우수한 성능 입증
- 4k에서 128k에 이르는 장문맥 평가에서 최적의 성능 기록
- 순환 메모리 모델의 효율적인 정보 유지 및 제거 메커니즘 제공
Delta-rule 선형 어텐션 (Delta-rule linear attention)은 새로운 내용을 쓰기 전에 현재 쓰기 주소 (write address)에 이미 저장된 내용을 수정함으로써 순환 메모리 (recurrent memory) 업데이트를 개선합니다. 그러나 능동적인 수정은 여전히 동일한 쓰기 주소에 고정되어 있습니다. 그 결과, 다른 주소에 저장된 오래된 정보는 다른 곳에 새로운 내용이 쓰이기 전에 능동적으로 제거될 수 없습니다. 우리는 삭제할 위치와 쓸 위치를 분리하는 메모리 업데이트 규칙인 Erase-then-Delta Attention (EDA)를 제안합니다. 핵심 통찰은 순환 메모리 모델이 현재의 쓰기 내용을 수정할 뿐만 아니라, 독립적으로 선택된 주소에 있는 오래된 메모리를 선택적으로 억제해야 한다는 것입니다. 구체적으로, 우리의 방법은 먼저 학습된 삭제 방향 (erase direction)을 따라 표적화된 삭제 단계를 적용한 다음, 현재 쓰기 방향 (write direction)을 따라 표준적인 델타 스타일의 수정 쓰기 (delta-style corrective write)를 수행합니다. 이는 델타 규칙 업데이트의 수정 동작을 유지하면서 메모리 관리 능력을 확장합니다. Dense 2.5B 및 MoE 25B-A2.8B 모델 제품군에 걸친 언어 모델 사전 학습 (Language-model pretraining) 실험 결과, EDA는 두 설정 모두에서 가장 우수한 성능을 보였습니다. 이러한 이점은 MoE 모델의 80B 토큰 장문맥 중간 학습 (long-context midtraining) 이후에도 지속되며, EDA는 4k에서 128k 컨텍스트에 이르는 장문맥 평가에서도 가장 좋은 성능을 나타냅니다. 압축된 업데이트 분석과 메모리 상태 프로브 (memory-state probes)는 그 이유를 시사합니다. EDA는 수동적 감쇠 (passive decay)가 약할 때 추가적인 정리 경로를 가장 강력하게 할당하면서도 델타 규칙의 수정 쓰기를 온전하게 유지합니다. 이러한 결과는 순환 메모리 모델이 무엇을 쓸 것인지뿐만 아니라, 어떤 오래된 정보를 어디에서 지울 것인지도 결정해야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기