동적 선형 어텐션 (Dynamic Linear Attention)
요약
표준 어텐션의 이차 복잡도 문제를 해결하기 위해 제안된 DLA(Dynamic Linear Attention) 프레임워크를 소개합니다. DLA는 고정된 상태 병합 방식의 한계를 극복하여 토큰의 중요도에 따라 메모리를 동적으로 관리하고 정보 손실을 최소화합니다.
핵심 포인트
- 기존 선형 어텐션의 고정된 상태 병합 정책 한계 해결
- 정보 인지적 동적 상태 병합을 통한 고해상도 표현 보존
- 용량 제한 메모리 모델링으로 효율적인 상태 캐시 유지
- 다양한 데이터셋 실험을 통해 SOTA 성능 입증
대규모 언어 모델 (LLMs)의 긴 컨텍스트 (long contexts) 확장성은 표준 어텐션 (standard attention)의 이차 복잡도 (quadratic complexity)에 의해 근본적으로 제한되며, 이는 이차 미만의 비용을 갖는 선형 어텐션 (linear attention) 메커니즘의 채택을 촉진합니다. 긴 컨텍스트 환경에서 표현 능력 (representation capacity)을 향상시키기 위해, 최근의 접근 방식들은 메모리를 다중 상태 (multi-state) 방식으로 구성합니다. 그러나 기존의 다중 상태 선형 어텐션 방법들은 동적으로 변화하는 토큰 중요도에 적응할 수 없는 고정된 상태 병합 정책 (fixed state merging policies)에 의존하며, 이로 인해 중요한 토큰이 되돌릴 수 없이 가려지고 긴 시퀀스에서 심각한 오류 누적을 초래합니다. 이러한 한계를 해결하기 위해, 우리는 다중 상태 선형 어텐션을 위한 동적 메모리 모델링 프레임워크인 DLA를 제안합니다. DLA는 (i) 정보 인지적 동적 상태 병합 (Information-Aware Dynamic State Merging)을 도입하는데, 이는 토큰 수준의 정보 변화에 따라 상태 경계를 적응적으로 결정하여, 안정적인 영역은 공격적으로 요약하는 동시에 의미론적 전환 (semantic transitions) 주변의 고해상도 표현을 보존합니다. 또한 (ii) 용량 제한 메모리 모델링 (Capacity-Bounded Memory Modeling)을 도입하여, 정보 손실을 최소화하면서 메모리 증가를 제어하기 위해 인접한 저정보 상태들을 선택적으로 병합함으로써 고정된 크기의 시간 순서대로 정렬된 상태 캐시 (state cache)를 유지합니다. 우리는 두 가지 서로 다른 선형 어텐션 모델에서 DLA를 사전 학습 (pre-train)하고, 세 가지 카테고리에 걸친 16개의 데이터셋에서 평가를 수행했습니다. 실험 결과는 DLA가 최첨단 (state-of-the-art) 기술보다 우수함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기