LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
요약
최근 오픈 웨이트 LLM들이 장문 컨텍스트 처리 효율을 높이기 위해 도입하고 있는 최신 아키텍처 트릭을 분석합니다. Gemma 4의 KV 공유, Laguna XS.2의 레이어별 어텐션 예산 할당, DeepSeek V4의 mHC 등 메모리와 연산 비용을 절감하는 기술적 동향을 다룹니다.
핵심 포인트
- Gemma 4: 계층 간 KV 공유를 통해 KV 캐시 크기를 약 절반으로 절감
- Laguna XS.2: 레이어별로 쿼리 헤드 수를 다르게 할당하는 방식 도입
- ZAYA1-8B: 압축된 잠재 공간에서 연산하는 CCA 기술로 FLOPs 절감
- DeepSeek V4: mHC와 압축 어텐션을 통해 1M 토큰 컨텍스트 효율 극대화
- 최근 공개된 오픈 웨이트 LLM들이
장문 컨텍스트 효율성에 집중하면서, KV 캐시 크기·메모리 트래픽·어텐션 비용을 줄이기 위한아키텍처 트릭이 빠르게 늘어나는 중 - Gemma 4는
계층 간 KV 공유(cross-layer attention)와per-layer embeddings(PLE)로 KV 캐시와 파라미터 효율을 동시에 개선 - Laguna XS.2는 레이어별로
쿼리 헤드 수를 다르게 할당하는layer-wise attention budgeting도입 - ZAYA1-8B는
**Compressed Convolutional Attention(CCA)**으로 압축된 잠재 공간에서 직접 어텐션 연산을 수행, KV 캐시뿐 아니라 어텐션 FLOPs까지 절감 - DeepSeek V4는
**mHC(Manifold-Constrained Hyper-Connections)**로 잔차 경로를 확장하고,CSA/HCA로 시퀀스 길이를 압축해 1M 토큰 컨텍스트에서 V3.2 대비 FLOPs·KV 캐시를 대폭 절감
개요: 장문 컨텍스트 효율성에 집중하는 최신 아키텍처
-
추론(reasoning) 모델과 에이전트 워크플로가 더 많은 토큰을 더 오래 유지하면서,
KV 캐시 크기·메모리 트래픽·어텐션 비용이 주요 제약으로 부상 - 4월~5월 공개된 주요 오픈 웨이트 모델에서 새로 등장한 설계 포인트 -
Gemma 4:
KV sharing과per-layer embeddings - Laguna XS.2:
layer-wise attention budgeting - ZAYA1-8B:
compressed convolutional attention - DeepSeek V4:
mHC + compressed attention -
Gemma 4:
-
본문은 데이터 믹스, 학습 일정, 포스트 트레이닝, RL 레시피, 벤치마크는 다루지 않고
트랜스포머 블록·잔차 스트림·KV 캐시·어텐션 연산내부 변화에 집중
1. Gemma 4: 계층 간 KV 공유로 캐시 축소
-
Google이 4월 초 공개한 Gemma 4 제품군은 3가지 카테고리로 구성
Gemma 4 E2B/E4B: 모바일·임베디드 디바이스(IoT)용 소형 모델Gemma 4 26B MoE: 효율적 로컬 추론에 최적화된 MoE 모델Gemma 4 31B dense: 최고 품질과 포스트 트레이닝 편의성을 위한 dense 모델
KV 공유(cross-layer attention) 도입
-
후반부 레이어가 자체 K/V 프로젝션을 계산하지 않고,
같은 어텐션 타입의 가장 가까운 이전 비공유 레이어의 KV 텐서를 재사용 - 슬라이딩 윈도우 레이어는 이전 슬라이딩 윈도우 레이어와, full-attention 레이어는 이전 full-attention 레이어와 KV 공유 -
쿼리 프로젝션은 각 레이어가 자체 계산하므로 레이어별 어텐션 패턴은 유지
-
Gemma 4 E2B는 35개 트랜스포머 레이어 중
처음 15개만 자체 KV 계산, 마지막 20개 레이어는 재사용 - Gemma 4 E4B는 42개 레이어 중 24개만 자체 KV 계산, 마지막 18개 재사용 -
후반부 레이어가 자체 K/V 프로젝션을 계산하지 않고,
절감 효과
-
약 절반의 KV를 공유,
KV 캐시 크기 약 절반 절감 - 128K 장문 컨텍스트(bfloat16) 기준 E2B는
2.7 GB, E4B는약 6 GB절감 -
약 절반의 KV를 공유,
한계
-
KV 공유는 일종의 근사로
모델 capacity 감소 - cross-layer attention 논문에 따르면 (테스트된 소형 모델에서는) 영향이 최소 수준 -
KV 공유는 일종의 근사로
-
개념 자체는 Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024)에 기반, Gemma 4가 이를
널리 알려진 아키텍처에서 처음으로 적용한 사례
2. Gemma 4 E2B/E4B의 Per-Layer Embeddings (PLE)와 "Effective" 사이즈
- PLE는 KV 공유와
별개의 효율성 설계로,파라미터 효율성에 초점 -
"E"는 effective 의미
-
Gemma 4 E2B:
2.3B effective parameters, 임베딩 포함 시 5.1B - Gemma 4 E4B:
4.5B effective parameters, 임베딩 포함 시 8B - 메인 트랜스포머 스택 연산은 작은 수치에 가깝고, 큰 수치는 추가 임베딩 테이블 레이어 포함 -
Gemma 4 E2B:
PLE 구조
-
PLE 벡터는 반복되는 트랜스포머 블록
외부에서 준비 - 토큰 ID는 per-layer embedding lookup을 거치고, 일반 토큰 임베딩은 동일한 PLE 공간으로 선형 프로젝션 -
두 결과를 더하고 스케일링·reshape하여
레이어별 슬라이스 하나씩 가진 텐서생성 - 각 레이어 l은 자신의 슬라이스(ple_l)만 수신 -
PLE 벡터는 반복되는 트랜스포머 블록
트랜스포머 블록 내부 동작
-
어텐션과 피드포워드 잔차 업데이트를 일반대로 수행
-
두 번째 잔차 add 이후 hidden state z가
레이어별 PLE 벡터를 게이팅 - 게이팅된 PLE 벡터를 모델 hidden size로 다시 프로젝션·정규화 후
추가 잔차 업데이트로 더함
PLE의 목적
-
비싼 트랜스포머 블록은 작은 "effective" 사이즈에 가깝게 유지
-
추가 capacity는
per-layer embedding 테이블에 저장, 룩업 기반이라 어텐션·FFN 가중치 추가보다 훨씬 저렴 - 단순히 dense 모델을 작게 만드는 대안과 달리,
메인 연산부의 capacity를 희생하지 않음 -
PLE가 원칙적으로 소형 모델에만 국한되지는 않으나, 대형 모델은 이미 capacity가 충분하고 MoE로 capacity 확장이 가능
3. Laguna XS.2: Layer-Wise Attention Budgeting
- Laguna는 코딩 응용 LLM에 집중하는 유럽 기반 회사
Poolside의 첫 오픈 웨이트 모델 -
기본 구성
-
총
40개 레이어, 그중30개는 슬라이딩 윈도우 어텐션,10개는 global/full attention - 슬라이딩 윈도우 레이어 윈도우 크기:
512 토큰 - 슬라이딩 윈도우 + global 혼합 패턴 자체는 Gemma 4 등 다른 아키텍처에서도 사용 -
총
새로운 점: 레이어별 쿼리 헤드 수 차등화
- Hugging Face config.json의
num_attention_heads_per_layer
설정으로 레이어마다 다른 쿼리 헤드 수 지정 가능, KV 캐시 모양은 호환 유지 슬라이딩 윈도우 레이어: KV 헤드당 8개 쿼리 헤드****Full attention 레이어: KV 헤드당 6개 쿼리 헤드- KV 헤드는 8개로 고정
- Hugging Face config.json의
설계 의도
-
모든 레이어에 동일한 어텐션 예산을 부여하는 대신,
유용한 곳에 어텐션 capacity 집중 - full-attention 레이어는 전체 컨텍스트를 보므로 비싸기 때문에 쿼리 헤드를 더 적게 할당 -
모든 레이어에 동일한 어텐션 예산을 부여하는 대신,
-
레이어별 capacity 차등화 아이디어 자체는 적어도 Apple의 2024년
OpenELM까지 거슬러 올라가며, Laguna XS.2는프로덕션급 오픈 모델 중 가장 두드러진 최근 사례 - 부수적으로 Laguna는
per-head attention-output gating도 적용 (Qwen3-Next 등과 유사)
4. ZAYA1-8B: Compressed Convolutional Attention (CCA)
Zyphra가 개발한 오픈 웨이트 모델,NVIDIA GPU나 Google TPU가 아닌 AMD GPU에서 학습된 점이 특징-
구조
-
config.json상 80개의 교대 레이어 항목, CCA/GQA 어텐션과 MoE 피드포워드가 번갈아 등장 (시각적으로는 40개 어텐션+MoE 쌍으로 표현)
4:1 GQA 레이아웃과 함께 CCA 사용- MoE는 매우 희소한 설정으로,
토큰당 라우팅 expert 1개만 활성
CCA의 핵심
-
MLA와 유사하게 어텐션 블록에
압축된 잠재 표현도입 - 차이점: MLA는 잠재 표현을 주로
KV 캐시 축소용으로 사용하고, 실제 어텐션은 어텐션 헤드 공간으로 다시 프로젝션해 수행 - CCA는 Q, K, V를 모두 압축한 뒤
압축된 잠재 공간에서 직접 어텐션 연산수행, 결과 어텐션 벡터는 다시 up-projection - 결과적으로
KV 캐시뿐 아니라 prefill·학습 시 어텐션 FLOPs까지 절감 -
MLA와 유사하게 어텐션 블록에
Convolutional Mixing
-
"Convolutional"이라는 이름은
압축된 K, Q 표현에 추가 convolutional mixing이 들어가기 때문 - 압축은 Q, K, V를 좁게 만들어 연산·캐시 절감하지만, 어텐션 표현력을 떨어뜨릴 수 있음 -
convolution은 압축된 Q, K에
로컬 컨텍스트를 저렴하게 추가하는 수단 - V에는 적용하지 않음 — Q, K는 어텐션 스코어를 결정하고, V는 그 스코어로 평균되는 콘텐츠이기 때문 -
sequence mixing 외에
channel mixing 컴포넌트도 존재 -
"Convolutional"이라는 이름은
성능
-
CCA는 ZAYA1-8B 기술 보고서보다 앞선 별도 논문
**"Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (2025년 10월)**에서 도입 - CCA 논문 실험 기준,
동일한 압축 설정에서 MLA보다 우수한 결과 보고 -
CCA는 ZAYA1-8B 기술 보고서보다 앞선 별도 논문
5. DeepSeek V4: CSA/HCA, mHC, 압축 어텐션 캐시
DeepSeek V4는 올해 가장 큰 화제와 모델 규모를 보인 릴리즈,
DeepSeek V4-Pro는 active parameter 비중 기준 가장 희소한 MoE -
본문은 이전 아키텍처 대비 새로운 두 핵심에 집중
mHC: 더 넓은 잔차 경로CSA/HCA: 장문 컨텍스트 어텐션 압축·희소화
5.1 Manifold-Constrained Hyper-Connections (mHC)
- 2025년 12월 31일 DeepSeek 팀 논문 "mHC: Manifold-Constrained Hyper-Connections" 기반, 당시 27B 규모에서만 실험되었으나
이번 플래그십에 본격 적용 - 트랜스포머 블록 내
잔차 연결 설계를 현대화하는 것이 목적 — 어텐션/정규화/MoE에 집중되던 변경과 차별화 -
Hyper-Connections (HC) 배경
-
Zhu et al. (2024) "Hyper-connections" 기반
-
단일 잔차 스트림을
여러 병렬 잔차 스트림과 학습된 매핑으로 대체 - 어텐션·MoE 레이어가 일반 hidden size로 동작하기 위해
Pre Mapping(병렬 스트림 → 하나의 hidden vector)과Post Mapping(레이어 출력 → 병렬 스트림 분배) 추가 - 잔차 경로를 더 표현력 있게 만들면서 어텐션·MoE 자체는 넓히지 않음 -
7B OLMo MoE 실험에서 토큰당 FLOPs는
13.36G → 13.38G로 사실상 변화 없음, 학습 토큰 약 절반으로 baseline 성능 도달
HC → mHC 변경점
-
일반 HC의 Res Mapping은 학습 가능한 행렬로, 여러 층을 거치며 신호 증폭·축소가 예측 불가
-
mHC는 잔차 매핑을
doubly stochastic matrices 매니폴드에 사영 — 모든 항이 비음수, 각 행·열의 합이 1 - 잔차 혼합이 스트림 간
안정적 정보 재분배처럼 동작 - Pre Mapping, Post Mapping도 비음수·유계로 제약, widened 잔차 상태 읽기/쓰기 시 상쇄 방지 -
더 깊은 모델일수록 중요해지는
스케일링 안정성확보
비용
-
27B 모델 실험에서 DeepSeek 팀의 최적화 구현(fusion, recomputation, pipeline scheduling)으로
n=4 잔차 스트림 사용 시 학습 시간 오버헤드 6.7% -
27B 모델 실험에서 DeepSeek 팀의 최적화 구현(fusion, recomputation, pipeline scheduling)으로
-
2025년 12월 31일 DeepSeek 팀 논문 "mHC: Manifold-Constrained Hyper-Connections" 기반, 당시 27B 규모에서만 실험되었으나
5.2 CSA와 HCA를 통한 압축 어텐션
- 매우 긴 컨텍스트에서 어텐션 스코어 계산뿐 아니라
KV 캐시가 시퀀스 길이에 비례해 커지는 문제해결이 목적 - DeepSeek V4는 두 압축 어텐션의 하이브리드 사용:
Compressed Sparse Attention (CSA)와Heavily Compressed Attention (HCA) -
MLA와의 차이
-
DeepSeek V2/V3의 MLA는
토큰별 KV 표현을 압축하되 토큰당 한 개의 잠재 KV 엔트리 유지 - CSA/HCA는
시퀀스 차원을 따라 압축, 여러 토큰 그룹을 더 적은 압축 KV 엔트리로 요약 → 캐시 자체가 짧아짐 - 토큰 단위 정보를 일부 포기하는 대신
장문 컨텍스트 비용 대폭 절감 -
DeepSeek V2/V3의 MLA는
CSA vs HCA
CSA: 약한 압축률(m=4) +DeepSeek Sparse Attention (DSA) 스타일 top-k 선택****HCA: 강한 압축(m'=128,128 토큰을 압축 KV 엔트리 1개로) + 짧아진 캐시 위에서dense attention- 두 방식 모두 최근 비압축 토큰을 위해
128 토큰 슬라이딩 윈도우 분기유지 - CSA는 디테일을 더 살리되 희소 선택, HCA는 엔트리를 크게 줄여 dense attention 가능 →
상호 보완적이므로 DeepSeek V4는 두 레이어를 교차 배치
효율성 결과 (1M 토큰 컨텍스트, DeepSeek V3.2 대비)
DeepSeek V4-Pro: 단일 토큰 추론 FLOPs27%, KV 캐시 크기10%DeepSeek V4-Flash: FLOPs10%, KV 캐시 크기7%
평가 주의점
-
CSA/HCA가 MLA보다 일반적으로 "더 좋다"고 단정하기 어려움,
더 공격적인 장문 컨텍스트 설계이자 더 복잡 - 논문에 ablation study 없음 -
DeepSeek V4-Flash-Base가 다수 base 벤치마크에서 V3.2-Base를 능가하고 1M 토큰 retrieval에서 강한 결과를 보였으나, 이는 더 나은 데이터·Muon 기반 최적화·mHC·정밀도/저장 최적화·학습/추론 시스템 변경을 포함한
전체 레시피 결과 -
CSA/HCA가 MLA보다 일반적으로 "더 좋다"고 단정하기 어려움,
-
매우 긴 컨텍스트에서 어텐션 스코어 계산뿐 아니라
6. 결론
-
올해 새 오픈 웨이트 모델들의 공통 패턴은
총 파라미터 수를 줄이지 않으면서 장문 컨텍스트 추론 비용을 낮추는 것- Gemma 4:
cross-layer KV sharing으로 KV 캐시 축소,per-layer embeddings로 capacity 추가 - Laguna XS.2: 레이어별 어텐션 capacity 차등화 -
ZAYA1-8B: 어텐션을
압축 잠재 공간으로 이동 - DeepSeek V4: 제약된 잔차 스트림 혼합 + 압축 장문 어텐션 -
Gemma 4:
-
트랜스포머 블록은 여전히 변화 중이나
타깃이 명확한 방식의 수정, 기본 골격은 GPT decoder-only 아키텍처를 유지 - 정성적 모델링 성능은 주로
데이터 품질·양과 학습 레시피가 견인 - 현재까지는
**트랜스포머가 SOTA 아키텍처의 현상태(status quo)**로 유지, diffusion 모델 등 대안 존재 - 기본 트랜스포머 블록은 PyTorch 50~100줄로 구현 가능했으나, 최근 어텐션 변형 등으로
코드 복잡도가 약 10배증가 - 복잡도 증가 자체는 런타임 비용을 줄이므로 부정적이지만은 않으며, 개별 컴포넌트와 상호작용에 대한
명확한 이해는 점점 어려워짐 - 학습 권장 접근: 원조 decoder-style LLM(GPT/GPT-2)에서 출발해 새 컴포넌트를 하나씩 추가해 가며 학습
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기