LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션

최근 공개된 오픈 웨이트 LLM들이
장문 컨텍스트 효율성에 집중하면서, KV 캐시 크기·메모리 트래픽·어텐션 비용을 줄이기 위한아키텍처 트릭이 빠르게 늘어나는 중 - Gemma 4는
계층 간 KV 공유(cross-layer attention)와per-layer embeddings(PLE)로 KV 캐시와 파라미터 효율을 동시에 개선 - Laguna XS.2는 레이어별로
쿼리 헤드 수를 다르게 할당하는layer-wise attention budgeting도입 - ZAYA1-8B는
**Compressed Convolutional Attention(CCA)**으로 압축된 잠재 공간에서 직접 어텐션 연산을 수행, KV 캐시뿐 아니라 어텐션 FLOPs까지 절감 - DeepSeek V4는
**mHC(Manifold-Constrained Hyper-Connections)**로 잔차 경로를 확장하고,CSA/HCA로 시퀀스 길이를 압축해 1M 토큰 컨텍스트에서 V3.2 대비 FLOPs·KV 캐시를 대폭 절감

개요: 장문 컨텍스트 효율성에 집중하는 최신 아키텍처

추론(reasoning) 모델과 에이전트 워크플로가 더 많은 토큰을 더 오래 유지하면서,
KV 캐시 크기·메모리 트래픽·어텐션 비용이 주요 제약으로 부상 - 4월~5월 공개된 주요 오픈 웨이트 모델에서 새로 등장한 설계 포인트
Gemma 4:
KV sharing과per-layer embeddings - Laguna XS.2:
layer-wise attention budgeting - ZAYA1-8B:
compressed convolutional attention - DeepSeek V4:
mHC + compressed attention
Gemma 4:
본문은 데이터 믹스, 학습 일정, 포스트 트레이닝, RL 레시피, 벤치마크는 다루지 않고
트랜스포머 블록·잔차 스트림·KV 캐시·어텐션 연산내부 변화에 집중

1. Gemma 4: 계층 간 KV 공유로 캐시 축소

Google이 4월 초 공개한 Gemma 4 제품군은 3가지 카테고리로 구성
Gemma 4 E2B/E4B: 모바일·임베디드 디바이스(IoT)용 소형 모델Gemma 4 26B MoE: 효율적 로컬 추론에 최적화된 MoE 모델Gemma 4 31B dense: 최고 품질과 포스트 트레이닝 편의성을 위한 dense 모델

KV 공유(cross-layer attention) 도입

후반부 레이어가 자체 K/V 프로젝션을 계산하지 않고,
같은 어텐션 타입의 가장 가까운 이전 비공유 레이어의 KV 텐서를 재사용 - 슬라이딩 윈도우 레이어는 이전 슬라이딩 윈도우 레이어와, full-attention 레이어는 이전 full-attention 레이어와 KV 공유
쿼리 프로젝션은 각 레이어가 자체 계산하므로 레이어별 어텐션 패턴은 유지
Gemma 4 E2B는 35개 트랜스포머 레이어 중
처음 15개만 자체 KV 계산, 마지막 20개 레이어는 재사용 - Gemma 4 E4B는 42개 레이어 중 24개만 자체 KV 계산, 마지막 18개 재사용
후반부 레이어가 자체 K/V 프로젝션을 계산하지 않고,

절감 효과

약 절반의 KV를 공유,
KV 캐시 크기 약 절반 절감 - 128K 장문 컨텍스트(bfloat16) 기준 E2B는
2.7 GB, E4B는약 6 GB절감
약 절반의 KV를 공유,

한계

KV 공유는 일종의 근사로
모델 capacity 감소 - cross-layer attention 논문에 따르면 (테스트된 소형 모델에서는) 영향이 최소 수준
KV 공유는 일종의 근사로
개념 자체는 Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024)에 기반, Gemma 4가 이를
널리 알려진 아키텍처에서 처음으로 적용한 사례

2. Gemma 4 E2B/E4B의 Per-Layer Embeddings (PLE)와 "Effective" 사이즈

PLE는 KV 공유와
별개의 효율성 설계로,파라미터 효율성에 초점 -

"E"는 effective 의미

Gemma 4 E2B:
2.3B effective parameters, 임베딩 포함 시 5.1B - Gemma 4 E4B:
4.5B effective parameters, 임베딩 포함 시 8B - 메인 트랜스포머 스택 연산은 작은 수치에 가깝고, 큰 수치는 추가 임베딩 테이블 레이어 포함
Gemma 4 E2B:

PLE 구조

PLE 벡터는 반복되는 트랜스포머 블록
외부에서 준비 - 토큰 ID는 per-layer embedding lookup을 거치고, 일반 토큰 임베딩은 동일한 PLE 공간으로 선형 프로젝션
두 결과를 더하고 스케일링·reshape하여
레이어별 슬라이스 하나씩 가진 텐서생성 - 각 레이어 l은 자신의 슬라이스(ple_l)만 수신
PLE 벡터는 반복되는 트랜스포머 블록

트랜스포머 블록 내부 동작

어텐션과 피드포워드 잔차 업데이트를 일반대로 수행
두 번째 잔차 add 이후 hidden state z가
레이어별 PLE 벡터를 게이팅 - 게이팅된 PLE 벡터를 모델 hidden size로 다시 프로젝션·정규화 후
추가 잔차 업데이트로 더함

PLE의 목적

비싼 트랜스포머 블록은 작은 "effective" 사이즈에 가깝게 유지
추가 capacity는
per-layer embedding 테이블에 저장, 룩업 기반이라 어텐션·FFN 가중치 추가보다 훨씬 저렴 - 단순히 dense 모델을 작게 만드는 대안과 달리,
메인 연산부의 capacity를 희생하지 않음
PLE가 원칙적으로 소형 모델에만 국한되지는 않으나, 대형 모델은 이미 capacity가 충분하고 MoE로 capacity 확장이 가능

3. Laguna XS.2: Layer-Wise Attention Budgeting

Laguna는 코딩 응용 LLM에 집중하는 유럽 기반 회사
Poolside의 첫 오픈 웨이트 모델 -

기본 구성

총
40개 레이어, 그중30개는 슬라이딩 윈도우 어텐션,10개는 global/full attention - 슬라이딩 윈도우 레이어 윈도우 크기:
512 토큰 - 슬라이딩 윈도우 + global 혼합 패턴 자체는 Gemma 4 등 다른 아키텍처에서도 사용
총

새로운 점: 레이어별 쿼리 헤드 수 차등화

Hugging Face config.json의
num_attention_heads_per_layer

설정으로 레이어마다 다른 쿼리 헤드 수 지정 가능, KV 캐시 모양은 호환 유지 슬라이딩 윈도우 레이어: KV 헤드당 8개 쿼리 헤드****Full attention 레이어: KV 헤드당 6개 쿼리 헤드- KV 헤드는 8개로 고정

Hugging Face config.json의

설계 의도

모든 레이어에 동일한 어텐션 예산을 부여하는 대신,
유용한 곳에 어텐션 capacity 집중 - full-attention 레이어는 전체 컨텍스트를 보므로 비싸기 때문에 쿼리 헤드를 더 적게 할당
모든 레이어에 동일한 어텐션 예산을 부여하는 대신,
레이어별 capacity 차등화 아이디어 자체는 적어도 Apple의 2024년
OpenELM까지 거슬러 올라가며, Laguna XS.2는프로덕션급 오픈 모델 중 가장 두드러진 최근 사례 - 부수적으로 Laguna는
per-head attention-output gating도 적용 (Qwen3-Next 등과 유사)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Zyphra가 개발한 오픈 웨이트 모델,NVIDIA GPU나 Google TPU가 아닌 AMD GPU에서 학습된 점이 특징-

구조

config.json상 80개의 교대 레이어 항목, CCA/GQA 어텐션과 MoE 피드포워드가 번갈아 등장 (시각적으로는 40개 어텐션+MoE 쌍으로 표현)
4:1 GQA 레이아웃과 함께 CCA 사용- MoE는 매우 희소한 설정으로,
토큰당 라우팅 expert 1개만 활성

CCA의 핵심

MLA와 유사하게 어텐션 블록에
압축된 잠재 표현도입 - 차이점: MLA는 잠재 표현을 주로
KV 캐시 축소용으로 사용하고, 실제 어텐션은 어텐션 헤드 공간으로 다시 프로젝션해 수행 - CCA는 Q, K, V를 모두 압축한 뒤
압축된 잠재 공간에서 직접 어텐션 연산수행, 결과 어텐션 벡터는 다시 up-projection - 결과적으로
KV 캐시뿐 아니라 prefill·학습 시 어텐션 FLOPs까지 절감
MLA와 유사하게 어텐션 블록에

Convolutional Mixing

"Convolutional"이라는 이름은
압축된 K, Q 표현에 추가 convolutional mixing이 들어가기 때문 - 압축은 Q, K, V를 좁게 만들어 연산·캐시 절감하지만, 어텐션 표현력을 떨어뜨릴 수 있음
convolution은 압축된 Q, K에
로컬 컨텍스트를 저렴하게 추가하는 수단 - V에는 적용하지 않음 — Q, K는 어텐션 스코어를 결정하고, V는 그 스코어로 평균되는 콘텐츠이기 때문
sequence mixing 외에
channel mixing 컴포넌트도 존재
"Convolutional"이라는 이름은

성능

CCA는 ZAYA1-8B 기술 보고서보다 앞선 별도 논문
**"Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (2025년 10월)**에서 도입 - CCA 논문 실험 기준,
동일한 압축 설정에서 MLA보다 우수한 결과 보고
CCA는 ZAYA1-8B 기술 보고서보다 앞선 별도 논문

5. DeepSeek V4: CSA/HCA, mHC, 압축 어텐션 캐시

DeepSeek V4는 올해 가장 큰 화제와 모델 규모를 보인 릴리즈,

DeepSeek V4-Pro는 active parameter 비중 기준 가장 희소한 MoE -
본문은 이전 아키텍처 대비 새로운 두 핵심에 집중

mHC: 더 넓은 잔차 경로CSA/HCA: 장문 컨텍스트 어텐션 압축·희소화

5.1 Manifold-Constrained Hyper-Connections (mHC)

2025년 12월 31일 DeepSeek 팀 논문 "mHC: Manifold-Constrained Hyper-Connections" 기반, 당시 27B 규모에서만 실험되었으나
이번 플래그십에 본격 적용 - 트랜스포머 블록 내
잔차 연결 설계를 현대화하는 것이 목적 — 어텐션/정규화/MoE에 집중되던 변경과 차별화 -

Hyper-Connections (HC) 배경

Zhu et al. (2024) "Hyper-connections" 기반
단일 잔차 스트림을
여러 병렬 잔차 스트림과 학습된 매핑으로 대체 - 어텐션·MoE 레이어가 일반 hidden size로 동작하기 위해
Pre Mapping(병렬 스트림 → 하나의 hidden vector)과Post Mapping(레이어 출력 → 병렬 스트림 분배) 추가 - 잔차 경로를 더 표현력 있게 만들면서 어텐션·MoE 자체는 넓히지 않음
7B OLMo MoE 실험에서 토큰당 FLOPs는
13.36G → 13.38G로 사실상 변화 없음, 학습 토큰 약 절반으로 baseline 성능 도달

HC → mHC 변경점

일반 HC의 Res Mapping은 학습 가능한 행렬로, 여러 층을 거치며 신호 증폭·축소가 예측 불가
mHC는 잔차 매핑을
doubly stochastic matrices 매니폴드에 사영 — 모든 항이 비음수, 각 행·열의 합이 1 - 잔차 혼합이 스트림 간
안정적 정보 재분배처럼 동작 - Pre Mapping, Post Mapping도 비음수·유계로 제약, widened 잔차 상태 읽기/쓰기 시 상쇄 방지
더 깊은 모델일수록 중요해지는
스케일링 안정성확보

비용

27B 모델 실험에서 DeepSeek 팀의 최적화 구현(fusion, recomputation, pipeline scheduling)으로
n=4 잔차 스트림 사용 시 학습 시간 오버헤드 6.7%
27B 모델 실험에서 DeepSeek 팀의 최적화 구현(fusion, recomputation, pipeline scheduling)으로
2025년 12월 31일 DeepSeek 팀 논문 "mHC: Manifold-Constrained Hyper-Connections" 기반, 당시 27B 규모에서만 실험되었으나

5.2 CSA와 HCA를 통한 압축 어텐션

매우 긴 컨텍스트에서 어텐션 스코어 계산뿐 아니라
KV 캐시가 시퀀스 길이에 비례해 커지는 문제해결이 목적 - DeepSeek V4는 두 압축 어텐션의 하이브리드 사용:
Compressed Sparse Attention (CSA)와Heavily Compressed Attention (HCA) -

MLA와의 차이

DeepSeek V2/V3의 MLA는
토큰별 KV 표현을 압축하되 토큰당 한 개의 잠재 KV 엔트리 유지 - CSA/HCA는
시퀀스 차원을 따라 압축, 여러 토큰 그룹을 더 적은 압축 KV 엔트리로 요약 → 캐시 자체가 짧아짐 - 토큰 단위 정보를 일부 포기하는 대신
장문 컨텍스트 비용 대폭 절감
DeepSeek V2/V3의 MLA는

CSA vs HCA

CSA: 약한 압축률(m=4) +DeepSeek Sparse Attention (DSA) 스타일 top-k 선택****HCA: 강한 압축(m'=128,128 토큰을 압축 KV 엔트리 1개로) + 짧아진 캐시 위에서dense attention- 두 방식 모두 최근 비압축 토큰을 위해
128 토큰 슬라이딩 윈도우 분기유지 - CSA는 디테일을 더 살리되 희소 선택, HCA는 엔트리를 크게 줄여 dense attention 가능 →
상호 보완적이므로 DeepSeek V4는 두 레이어를 교차 배치

효율성 결과 (1M 토큰 컨텍스트, DeepSeek V3.2 대비)

DeepSeek V4-Pro: 단일 토큰 추론 FLOPs27%, KV 캐시 크기10%DeepSeek V4-Flash: FLOPs10%, KV 캐시 크기7%

평가 주의점

CSA/HCA가 MLA보다 일반적으로 "더 좋다"고 단정하기 어려움,
더 공격적인 장문 컨텍스트 설계이자 더 복잡 - 논문에 ablation study 없음
DeepSeek V4-Flash-Base가 다수 base 벤치마크에서 V3.2-Base를 능가하고 1M 토큰 retrieval에서 강한 결과를 보였으나, 이는 더 나은 데이터·Muon 기반 최적화·mHC·정밀도/저장 최적화·학습/추론 시스템 변경을 포함한
전체 레시피 결과
CSA/HCA가 MLA보다 일반적으로 "더 좋다"고 단정하기 어려움,
매우 긴 컨텍스트에서 어텐션 스코어 계산뿐 아니라

6. 결론

올해 새 오픈 웨이트 모델들의 공통 패턴은
총 파라미터 수를 줄이지 않으면서 장문 컨텍스트 추론 비용을 낮추는 것- Gemma 4:
cross-layer KV sharing으로 KV 캐시 축소,per-layer embeddings로 capacity 추가 - Laguna XS.2: 레이어별 어텐션 capacity 차등화
ZAYA1-8B: 어텐션을
압축 잠재 공간으로 이동 - DeepSeek V4: 제약된 잔차 스트림 혼합 + 압축 장문 어텐션
Gemma 4:
트랜스포머 블록은 여전히 변화 중이나
타깃이 명확한 방식의 수정, 기본 골격은 GPT decoder-only 아키텍처를 유지 - 정성적 모델링 성능은 주로
데이터 품질·양과 학습 레시피가 견인 - 현재까지는
**트랜스포머가 SOTA 아키텍처의 현상태(status quo)**로 유지, diffusion 모델 등 대안 존재 - 기본 트랜스포머 블록은 PyTorch 50~100줄로 구현 가능했으나, 최근 어텐션 변형 등으로
코드 복잡도가 약 10배증가 - 복잡도 증가 자체는 런타임 비용을 줄이므로 부정적이지만은 않으며, 개별 컴포넌트와 상호작용에 대한
명확한 이해는 점점 어려워짐 - 학습 권장 접근: 원조 decoder-style LLM(GPT/GPT-2)에서 출발해 새 컴포넌트를 하나씩 추가해 가며 학습