arXiv논문2026. 06. 18. 11:17

로컬 및 글로벌 어텐션을 위한 이중 차원성 (Dual Dimensionality for Local and Global Attention)

요약

로컬 토큰과 먼 토큰의 표현 요구량이 다르다는 가설을 바탕으로 거리 적응형 표현(DAR) 기술을 제안합니다. 로컬 컨텍스트는 전체 차원을 유지하고 먼 토큰은 차원을 축소하여, 성능 저하 없이 KV 캐시 효율성을 높이는 연구입니다.

핵심 포인트

로컬 토큰은 풍부한 표현이, 먼 토큰은 낮은 차원의 표현이 필요함
거리 적응형 표현(DAR)을 통해 토큰 거리에 따라 차원을 다르게 할당
전체 차원 모델과 유사한 성능을 유지하며 KV 캐시 축소 가능성 제시
모든 토큰의 차원을 균일하게 축소할 경우 성능 저하 발생

Decoder-only Transformer는 이전 토큰들의 KV 캐시 (KV cache)에 대해 어텐션 (attention)을 계산합니다. Key (및 Value)는 예측 대상으로부터의 거리와 관계없이 일반적으로 동일한 차원 (dimensionality)으로 표현됩니다. 그러나 자연어에서는 다음 단어가 바로 직전의 토큰들에 의해 가장 강력하게 영향을 받습니다. 우리는 로컬 (local) 토큰과 먼 (distant) 토큰이 표현 용량 (representational capacity)에 대해 비대칭적인 요구를 한다고 가설을 세웠습니다. 즉, 로컬 토큰은 즉각적인 출력을 예측하는 데 더 중요하므로 더 풍부한 표현이 필요한 반면, 먼 토큰은 주로 장기 기억 (long-range memory) 역할을 수행하므로 더 낮은 차원의 표현으로도 충분할 수 있다는 것입니다. 우리는 이 아이디어를 거리 적응형 표현 (Distance-Adaptive Representation, DAR)으로 공식화하였으며, 로컬 컨텍스트 윈도우 (local context window) 내에서는 전체 차원 표현을 유지하면서, 해당 윈도우를 벗어난 토큰에는 축소된 차원 표현 (예: 원래 차원의 1/4)을 할당하는 통제된 환경에서 이를 구현했습니다. 다양한 사전 학습 규모 (70M에서 410M 파라미터) 및 1B 규모 모델에 대한 지속적인 지도 미세 조정 (supervised fine-tuning) 전반에 걸쳐, 이 접근 방식은 전체 차원 베이스라인 (full-dimensional baselines)의 성능과 매우 유사하게 나타났습니다. 반면, 모든 토큰 위치에서 차원을 균일하게 축소하는 것은 성능 저하를 초래했습니다. 이러한 결과는 Key와 Value의 차원이 모든 토큰 위치에서 균일해야 한다는 일반적인 가설에 의문을 제기합니다. 우리의 연구 결과는 시퀀스 전반에 걸쳐 표현 용량을 적응적으로 할당하는 어텐션 아키텍처 (attention architectures) 설계의 새로운 방향을 제시하며, 이를 통해 추론 (inference) 과정 중 KV 캐시를 더욱 축소할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

로컬 및 글로벌 어텐션을 위한 이중 차원성 (Dual Dimensionality for Local and Global Attention)

요약

핵심 포인트

댓글