arXiv논문2026. 06. 04. 13:17

Depth-Attention: 언어 모델을 위한 계층 간 가치 혼합 (Cross-Layer Value Mixing)

요약

Transformer의 계층 간 정보 재사용 문제를 해결하기 위해 Attention 모듈 내부에서 이전 계층의 값을 혼합하는 Depth-Attention 기법을 제안합니다. 추가적인 파라미터나 추론 캐시 비용 없이도 모델의 정확도를 높이고 Perplexity를 낮추는 효과를 입증했습니다.

핵심 포인트

Attention 내부에서 이전 계층의 Key-Value를 혼합하여 정보 재사용성 향상
추가적인 파라미터 및 추론 시 지속적 상태(KV 캐시 외)를 생성하지 않음
Qwen3 스타일 디코더에서 정확도 최대 2.3%p 향상 및 낮은 Perplexity 달성
연산량 증가를 0.01% 미만으로 유지하며 효율적인 계층 간 정보 흐름 구현

Self-attention (자기 주의 집중)은 시퀀스 전반에 걸쳐 정보를 자유롭게 선택하지만, 깊이(depth) 측면에서 Transformer (트랜스포머)는 단순히 각 계층의 출력을 잔차 스트림 (residual stream)에 더할 뿐이므로, 후기 계층이 초기 계층의 표현 (representations)을 선택적으로 재사용할 수 없습니다. 최근의 계층 간 (cross-layer) 방법들은 이러한 흐름을 개선하지만, attention (주의 집중) 외부의 hidden states (은닉 상태)에서 작동하여 추론 시 key-value cache (키-값 캐시) 이외의 상태를 추가하게 됩니다. 이러한 비용은 현대의 LLM (대규모 언어 모델)이 grouped-query attention (그룹화된 쿼리 주의 집중) 및 multi-head latent attention (다중 헤드 잠재 주의 집중)을 통해 캐시를 압축함에 따라 점점 더 두드러지게 됩니다.

우리는 이러한 선택을 attention 모듈 내부에서 수행하는 Depth-Attention을 소개합니다. 특정 계층이 시퀀스에 대해 attention을 수행하기 전에, 해당 계층의 query (쿼리)가 동일한 토큰 위치에 있는 이전 계층들의 key (키)를 참조하며, 그들의 value (값)를 self-attention이 읽게 될 value에 혼합합니다. Depth-Attention은 표준 attention의 query, key, value-cache 슬롯을 재사용하고, 기존의 value 대신 깊이가 혼합된 value를 저장하기 때문에, 파라미터(parameters)를 추가하지 않으며 표준 key-value cache 이외의 지속적인 추론 상태를 도입하지 않습니다. 이는 vanilla (바닐라) decoder (디코더)와 동일한 캐시 크기를 가지며, hidden-state 기반의 계층 간 방법들보다 적은 크기입니다.

1.5B 및 3B 파라미터 규모의 Qwen3 스타일 decoder에서 Depth-Attention은 가장 낮은 perplexity (당혹도)와 가장 높은 평균 다운스트림 정확도 (downstream accuracy)를 달format합니다. 이는 vanilla Transformer 대비 정확도를 최대 2.3 포인트 향상시키며, perplexity와 평균 정확도 측면에서 강력한 계층 간 베이스라인 (baselines)들을 능가하는 동시에, 추가적인 연산량(arithmetic FLOPs)은 0.01% 미만으로 유지하고 추가적인 지속적 추론 상태를 생성하지 않습니다. 이러한 이점은 360M에서 3B 파라미터 범위까지 유지되며, looped Transformers (루프형 트랜스포머)로도 확장됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

Depth-Attention: 언어 모델을 위한 계층 간 가치 혼합 (Cross-Layer Value Mixing)

요약

핵심 포인트

댓글