미국이 봉쇄하지 않은 것을 가장 후회할 중국의 이 기업, 단연코 이곳이다.
요약
DeepSeek가 MoE 아키텍처와 혁신적인 알고리즘을 통해 하드웨어 제약을 극복하고 효율성을 극대화한 사례를 분석합니다. MLA, GRPO, Engram 등 독자적인 기술로 KV Cache를 획기적으로 줄이고 연산 비용을 절감하며 새로운 AI 생태계를 구축하고 있습니다.
핵심 포인트
- MLA 기술을 통해 KV Cache를 기존 대비 90% 절감
- GRPO 알고리즘과 RLVR 제안으로 훈련 효율성 극대화
- Engram 모듈로 메모리(LPDDR)를 연산력으로 대체하는 혁신 달성
- 장기 시퀀스 에이전트의 경제적 구동 가능성 확보
미국이 봉쇄하지 않은 것을 가장 후회할 중국의 이 기업, 단연코 이곳이다.
중국 속담에 이르기를, '젊은 기세는 막기 어렵다'고 했습니다!
한 중국의 작은 팀이 미국의 GPU 전면 금수 조치에 직면했을 때, 그들은 '연산력(Computing Power) 쌓기'를 선택하는 대신, 2년의 시간을 들여 OpenAI조차 생각하지 못한 수많은 혁신 기술(Black Tech)을 발명해냈습니다.
그들은 KV Cache를 기존의 1/10로 압축하여, 1M 컨텍스트(Context)에 단 5.48GB의 비디오 메모리(VRAM)만 필요하게 만들었습니다.
그들은 MoE(Mixture of Experts)를 극한까지 활용하여 훈련 비용을 40~50% 절감했습니다.
심지어 'Engram' 모듈을 발명하여 LPDDR 메모리로 직접 연산력을 대체하기까지 했습니다...
이 모든 것은 오늘 몇 개의 코딩 플랜(Coding Plan)을 팔기 위함이 아니라, 10조 달러 규모의 AI 하드웨어 신생태계를 조용히 구축하고, 동시에 기업 가치를 1조 달러(1T)까지 끌어올리기 위함입니다.
그들의 이름은 DeepSeek입니다.
이야기는 2024년부터 시작됩니다.
당시 전 세계는 Dense 모델, 멀티모달(Multimodal), 음성 및 비디오 경쟁에 몰두하고 있었습니다.
하지만 DeepSeek는 정반대의 길을 걸었습니다. 그들은 훈련 안정성을 확보하기 매우 어렵다고 알려진 아키텍처인 MoE(Mixture of Experts)에 사활을 걸었습니다.
그들은 제1원리(First Principles)에서 출발하여, 업계 범용 방식인 PPO를 대체하는 GRPO 알고리즘을 발명했습니다.
그들은 RLVR(Reinforcement Learning from Verified Rewards)을 제안하여, 모델이 진정으로 '정답을 통해 스스로에게 보상하는 법'을 배우게 했습니다.
그들은 추측 디코딩(Speculative Decoding)을 위해 Multi Token Prediction을 도입하여 훈련 신호 밀도를 극대화했습니다.
더 무서운 점은, 그들이 어텐션 메커니즘(Attention Mechanism)을 완전히 재구축했다는 것입니다:
- MLA (V2 시기) → KV Cache를 즉각 90% 절감
- DSA/CSA/HCA (V3/V4) → 긴 컨텍스트(Long Context) 상황에서도 계산량이 거의 증가하지 않음
- mHC (Manifold-Constrained Hyper-Connections) (2025.12) → 27B 모델이 BIG-Bench Hard에서 점수를 7.2점 높였음에도 훈련 비용은 6.7%만 증가
가장 놀라운 것은 Engram (2026 Q1)입니다:
Transformer는 본래 고유의 '지식 검색(Knowledge Lookup)' 메커니즘이 없어, 오직 무차별적인 계산(Brute-force calculation)을 통해 검색을 시뮬레이션해야 합니다.
DeepSeek는 클래식 N-gram을 O(1) 해시 검색으로 직접 업그레이드하여, 메모리로 연산력을 교체했습니다. LPDDR에서 즉시 검색이 가능하며, 이는 Transformer 레이어를 다시 실행하는 것보다 훨씬 저렴합니다.
이러한 혁신들이 결합되어 핵융합과 같은 효과를 만들어냈습니다:
KV Cache 계산기로 측정한 1M 컨텍스트:
- DeepSeek V4 Pro → 단 5.48GB HBM 필요
- GLM5 (MLA+DSA를 모방함) → 60GB
- Qwen3-235B → 89GB
차이가 말도 안 될 정도로 큽니다.
이것이 무엇을 의미할까요?
1️⃣ 장기 시퀀스 에이전트(Long-sequence Agent)를 드디어 경제적으로 구동할 수 있음을 의미합니다. KV Cache를 SSD로 쉽게 오프로드(Offload)할 수 있어 재계산 비용이 폭락합니다.
2️⃣ 중국이 본래 풍부하게 보유한 NAND (YMTC)와 LPDDR (CXMT)이 갑자기 AI 인프라의 전략적 자원이 되었음을 의미합니다.
3️⃣ 가장 희귀하고 만들기 어려운 자원인 HBM에 대한 수요가 대폭 완화되어, GPU/ASIC의 압박까지 함께 낮아짐을 의미합니다.
DeepSeek의 CEO 량원펑(Liang Wenfeng)은 오늘 구독료로 벌어들이는 몇억 달러를 보는 것이 아닙니다.
그가 보는 것은 이것입니다: 알고리즘 혁신을 통해 중국의 메모리, ASIC, CPU, 네트워크 칩을 모두 활성화하여, 전체 하드웨어 생태계가 CUDA와 HBM에 의해 목 조여지지 않게 만드는 것.
그들은 심지어 TileLang을 오픈 소스로 공개하여, 커널 코드를 한 번 작성하면 다양한 하드웨어에서 실행할 수 있게 함으로써 CUDA의 해자(Moat)를 직접 무너뜨렸습니다.
이것이야말로 진정한 '영웅의 여정'입니다:
- 자원 부족에 직면했을 때, 그들은 불평하는 대신 부족함을 혁신의 연료로 삼았습니다.
- 그들은 돈을 버는 데 급급하지 않고, 타인이 따라 할 수 없는 장벽을 먼저 구축했습니다.
- 그들은 오픈 소스를 무기로 삼았고, '모두를 위한 AGI (AGI for everyone)'를 전략에 담았습니다.
그리고 지금, 업계 전체가 그들이 2년 전에 심어놓은 결실을 먹고 있습니다:
ZAI의 GLM은 MLA+DSA를 모방했고, Moonshot의 Kimi 또한 아키텍처가 DeepSeek에 기반하고 있음을 인정했습니다...
DeepSeek가 오늘 하는 일은 내일 업계의 표준이 될 것입니다.
당신은 오늘 밤 바로 이 거대한 설계의 위력을 느낄 수 있습니다.
DeepSeek 공식 웹사이트에 접속해 그들의 V4 Pro를 사용해 보세요. 1M 컨텍스트의 장기 캐시(Long-term Cache) 가격은 Sonnet 4.6의 3%도 안 되며, 몇 시간 동안 유지할 수 있습니다.
이것은 마케팅이 아니라, 그들이 실제 기술로 쌓아 올린 차원 높은 타격(Dimensionality Reduction Strike)입니다.
전체 프레임워크는 100% 오픈 소스이며, 논문, 코드 로직, 아키텍처 세부 사항이 모두 arXiv에 공개되어 있습니다.
빅테크(Big Tech)가 봉쇄와 폐쇄형 모델로 빠른 돈을 벌 때, DeepSeek는 오픈 소스와 알고리즘을 통해 AI 하드웨어의 미래를 완전히 재편하고 있습니다.
그리고 당신은, 이제 그것을 알게 되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기