DeepSeek-V4가 이차적 어텐션 비용 없이 백만 토큰 컨텍스트를 달성하는 방법

2026년 4월 MIT 라이선스로 출시된 DeepSeek-V4는 Mixture-of-Experts (MoE) 모델로, 동일한 컨텍스트 길이에서 이전 모델인 DeepSeek-V3.2가 필요했던 추론 FLOPs의 27%만을 사용하면서도 100만 토큰의 컨텍스트 창을 지원합니다. 이러한 효율성의 핵심은 표준 풀 어텐션 (Full Attention)을 두 가지 상호 보완적인 압축 전략으로 대체하는 하이브리드 어텐션 (Hybrid Attention) 메커니즘입니다. 이 포스트에서는 이러한 메커니즘이 어떻게 작동하는지, 아키텍처에서 그 외에 무엇이 변경되었는지, 그리고 실제 수치가 어떻게 나타나는지 살펴봅니다.

문제점: 어텐션의 이차적 확장 (Quadratic Scaling)

표준 트랜스포머 (Transformer) 어텐션은 모든 토큰 쌍 사이의 유사도 점수를 계산합니다. 1,000개의 토큰이 있을 때 이는 100만 번의 비교가 됩니다. 100만 개의 토큰이 있을 때는 1조 번이 되며, KV 캐시 (KV cache) 또한 그에 비례하여 증가합니다. 이것이 바로 더 긴 컨텍스트가 유용함에도 불구하고 대부분의 상용 모델들이 128K 또는 256K 토큰에서 제한을 두는 이유입니다.

슬라이딩 윈도우 어텐션 (Sliding Window Attention), 선형 어텐션 근사 (Linear Attention Approximations), 검색 증강 생성 (RAG, Retrieval-Augmented Generation)과 같은 표준적인 해결책들은 각각 효율성을 위해 성능의 일부를 희생합니다. DeepSeek-V4는 다른 접근 방식을 취합니다. 시퀀스의 아주 작은 부분에 대해서는 풀 어텐션 (Full Attention)을 유지하고, 나머지 부분에 대해서는 두 단계의 공격적인 압축을 사용합니다.

두 가지 압축 전략: CSA 및 HCA

DeepSeek-V4의 하이브리드 어텐션 시스템은 모델의 레이어 전반에 걸쳐 두 가지 메커니즘을 교차하여 배치합니다:

**Compressed Sparse Attention (CSA)**는 KV 캐시 (KV cache)를 4배로 압축합니다. 연속된 4개의 토큰은 소프트맥스 가중 풀링 (softmax-weighted pooling)을 사용하여 하나의 KV 엔트리로 병합됩니다. 그 후 FP4 정밀도로 실행되는 경량 "라이트닝 인덱서 (lightning indexer)"가 이 압축된 엔트리들에 대해 쿼리 (query) 점수를 매기고, 비용이 많이 드는 소프트맥스 (softmax) 및 행렬 곱셈 (matrix multiplication) 연산을 위해 가장 관련성이 높은 상위 k개(통상 약 128개)를 선택합니다. 슬라이딩 윈도우 (sliding window) 브랜치는 로컬 의존성 (local dependencies)을 보존하기 위해 병렬로 실행됩니다. 그 결과, 시퀀스의 대부분은 1/4 해상도로 표현되며, 가장 관련성이 높은 부분만이 전체 해상도로 어텐션 (attention) 됩니다.

**Heavily Compressed Attention (HCA)**는 더욱 공격적인 압축을 적용합니다. 128개의 토큰이 하나의 KV 엔트리로 병합되어, 100만 토큰 시퀀스를 약 8,000개의 엔트리로 줄임으로써 표준 밀집 어텐션 (dense attention)이 가능할 정도로 크기를 축소합니다. HCA는 전체 컨텍스트에 대한 거친 수준의 문서 단위 뷰 (document-level view)를 제공합니다.

두 메커니즘 모두 멀티 쿼리 어텐션 (Multi-Query Attention, MQA)을 사용하여 KV 프로젝션 (KV projections)을 공유하고, 쿼리 및 KV 정규화 (normalization)를 적용하며, 부분 회전 위치 임베딩 (Partial Rotary Positional Embedding, RoPE)을 사용합니다. 이 조합을 통해 모델은 어떤 레이어에서든 세 가지 뷰를 갖게 됩니다: 고해상도 로컬 윈도우 (local window), CSA를 통한 중간 해상도의 희소 선택 (sparse selection), 그리고 HCA를 통한 저해상도의 글로벌 요약 (global summary)입니다.

효율성 이득은 상당합니다. 100만 토큰 컨텍스트에서 DeepSeek-V4-Pro는 DeepSeek-V3.2와 비교했을 때 단일 토큰 추론 FLOPs의 27%와 KV 캐시 크기의 10%만을 요구합니다. 이는 컨텍스트 길이가 이론적으로 가능한 수준을 넘어, 서비스하기에 경제적으로 실행 가능한 수준이 되는 차이를 만듭니다.

Manifold-Constrained Hyper-Connections

어텐션(Attention)을 넘어, DeepSeek-V4는 표준 잔차 연결(Standard Residual Connections)을 Manifold-Constrained Hyper-Connections (mHC)로 대체합니다. 표준 잔차 블록(Standard Residual Block)에서 출력은 x + f(x)입니다. mHC에서는 잔차 매핑(Residual Mapping)이 이중 확률 행렬(Doubly Stochastic Matrices)의 매니폴드(Manifold) 위에 놓이도록 제한되어, 스펙트럼 노름(Spectral Norm)을 1로 제한합니다. 연결을 제어하는 파라미터는 고정되는 대신, 각 레이어에서 입력으로부터 동적으로 생성됩니다.

실질적인 효과는 훈련 중 수치적 안정성(Numerical Stability)이 향상되고 깊이에 따른 신호 전파(Signal Propagation)가 개선된다는 점입니다. 이는 규모가 커질수록 더 중요해집니다. 매우 깊은 모델은 mHC가 억제하도록 설계된 그래디언트(Gradient) 문제로 인해 어려움을 겪을 수 있기 때문입니다.

Muon Optimizer

DeepSeek-V4는 Muon optimizer를 사용하여 훈련되었습니다. 이 옵티마이저는 그래디언트 업데이트 행렬을 적용하기 전에 Newton-Schulz 반복법(Newton-Schulz Iterations)을 사용하여 직교화(Orthogonalize)합니다. 표준 Adam 방식의 옵티마이저(Adam-style Optimizers)는 큰 특이값(Singular Values)을 가질 수 있는 업데이트를 적용하여 훈련을 불안정하게 만들 수 있습니다. Muon은 업데이트가 대략적으로 직교하도록 제한하여 특이값을 제한된 범위 내로 유지하고 수렴 안정성(Convergence Stability)을 향상시킵니다.

훈련 과정에는 수학, 코드, 웹 텍스트 및 긴 문서를 포함하는 32조 개 이상의 토큰이 사용되었습니다. 추가적인 안정성 조치로는 Anticipatory Routing(전문가 붕괴(Expert Collapse)를 방지하기 위해 라우팅 업데이트 주기를 메인 훈련 단계와 분리함)과 SwiGLU Clamping(이상치(Outliers)가 MoE 게이팅(Gating)을 불안정하게 만드는 것을 방지하기 위해 활성화 값(Activation Values)을 클리핑함)이 포함되었습니다.

Model Variants and Deployment

V4 시리즈는 두 가지 크기로 제공됩니다:

모델	총 파라미터 수	토큰당 활성 파라미터	컨텍스트
DeepSeek-V4-Pro	1.6조 개	490억 개	100만 토큰
DeepSeek-V4-Flash	2,840억 개	130억 개	100만 토큰

두 모델 모두 세 가지 추론 모드를 지원합니다: Non-Think (표준 생성), Think High (사고 사슬 (Chain-of-Thought) 추론), 그리고 Think Max (확장 추론)입니다. 이전 DeepSeek 모델들과 달리, V4는 사고 모드 중에도 도구 호출 (Tool calls)을 지원하며, 이는 에이전트 파이프라인 (Agentic pipelines)에서 매우 중요합니다.

모델은 DeepSeek API를 통해 이용 가능하며, 가격은 (2026년 5월 기준) Pro 모델의 경우 입력 토큰 100만 개당 $0.435, Flash 모델의 경우 입력 토큰 100만 개당 $0.14입니다. 두 모델 모두 MIT 라이선스로 출시되었으며, 가중치(Weights)는 Hugging Face에서 확인할 수 있습니다. V4 Flash를 자체 호스팅하려면 약 158GB의 VRAM이 필요하며, V4 Pro는 DGX H200 또는 그에 상응하는 장비가 필요합니다.

벤치마크 결과 (Benchmark Results)

표준 벤치마크에서 V4-Pro는 V3.2 대비 일관된 개선을 보여줍니다:

벤치마크 (Benchmark)	DeepSeek-V3.2	DeepSeek-V4-Flash	DeepSeek-V4-Pro
MMLU (5-shot)	87.8	88.7	90.1
...

LongBench-V2 결과가 가장 직접적으로 연관성이 높습니다. CSA/HCA 하이브리드 어텐션 (Hybrid attention)이 가장 큰 역할을 하는 긴 컨텍스트 (Long-context) 작업에서 V3.2 대비 28%의 상대적 개선을 보였습니다. Pro 모델의 SimpleQA 점수 급증 (28.3 → 55.2)은 더 많은 활성 파라미터 수와 OPD 사후 학습 (Post-training) 단계로 인한 사실적 회상 (Factual recall) 능력의 향상을 반영합니다.

사후 학습: 온-폴리시 증류 (Post-Training: On-Policy Distillation)

사후 학습 파이프라인은 온-폴리시 증류 (On-Policy Distillation, OPD)를 사용합니다. 이는 전체 어휘 로짓 증류 (Full-vocabulary logit distillation)를 통해 여러 도메인 특화 교사 모델 (Teacher models)의 지식을 통합된 학생 모델 (Student model)로 전달합니다. 단일 범용 모델을 처음부터 학습시키는 대신, OPD를 통해 팀은 코딩, 수학, 추론을 위한 전문화된 교사 모델을 유지하면서, 이들의 결합된 지식을 V4-Pro 및 V4-Flash로 증류할 수 있습니다.

이것이 개발자에게 의미하는 바

법률 계약서, 코드베이스, 연구 논문, 확장된 대화 기록 등 긴 문서를 처리해야 하는 애플리케이션을 구축하고 있다면, CSA/HCA 아키텍처는 과거에 백만 토큰 컨텍스트를 비실용적으로 만들었던 메모리 및 연산 비용 없이 이를 수행할 수 있는 구체적인 경로를 제공합니다.

몇 가지 실질적인 참고 사항:

Flash 변형 모델이 현실적인 셀프 호스팅(self-hosting) 옵션입니다. 활성 파라미터(active parameters) 13B, 총 파라미터 284B인 V4-Flash는 H100 또는 H200 클러스터에서 관리 가능한 수준입니다. 활성 파라미터가 49B인 V4-Pro는 훨씬 더 많은 인프라를 요구합니다.
비용 측면에서 추론 모드(Reasoning mode) 선택이 중요합니다. Max 모드는 Non-Think 모드보다 실질적으로 훨씬 더 많은 토큰을 사용한다고 생각하십시오. 긴 컨텍스트는 필요하지만 확장된 사고 사슬(chain-of-thought)은 필요하지 않은 애플리케이션의 경우, V4-Flash 가격의 Non-Think 모드는 상당히 저렴합니다.
MIT 라이선스는 진정으로 허용적입니다. 제한적인 상업적 조건을 가진 일부 오픈 웨이트(open-weight) 출시와 달리, MIT 라이선스는 제한 없는 사용, 수정 및 재배포를 허용합니다. 가중치(weights) 및 인프라 세부 사항은 arXiv의 기술 보고서에 문서화되어 있습니다.

CSA/HCA 프레임워크 — 거친 전역 어텐션(coarse global attention)과 희소 고해상도 어텐션(sparse high-resolution attention)의 결합 — 는 분야가 컨텍스트 길이를 계속해서 늘려감에 따라 다른 롱 컨텍스트(long-context) 모델에서도 나타날 가능성이 높은 일반적인 아키텍처 패턴입니다.

주요 출처: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence — DeepSeek AI, 2026

참조 출처: DeepSeek V4 Complete Guide | Simon Willison's notes on DeepSeek-V4 | DeepSeek V4 API Documentation

DeepSeek-V4가 이차적 어텐션 비용 없이 백만 토큰 컨텍스트를 달성하는 방법

요약

핵심 포인트

DeepSeek-V4가 이차적 어텐션 비용 없이 백만 토큰 컨텍스트를 달성하는 방법

문제점: 어텐션의 이차적 확장 (Quadratic Scaling)

두 가지 압축 전략: CSA 및 HCA

Manifold-Constrained Hyper-Connections

Manifold-Constrained Hyper-Connections

Muon Optimizer

Model Variants and Deployment

벤치마크 결과 (Benchmark Results)

사후 학습: 온-폴리시 증류 (Post-Training: On-Policy Distillation)

이것이 개발자에게 의미하는 바

댓글