Claude: 돈 낭비

DeepSeek V4가 출시되었습니다. 보도 자료나 유리한 벤치마크(benchmarks)만을 골라 담은 정교하게 편집된 블로그 포스트가 아니라, 아무것도 숨기지 않은 58페이지 분량의 연구 논문입니다. 그리고 이 논문이 강요하는 결론은 프리미엄 AI 구독을 위해 매달 20달러를 지불하는 누구에게나 불편하게 다가옵니다. 바로 Claude는 돈 낭비라는 것입니다. 이것은 과장이 아닙니다. 수치는 공개되어 있으며, 매우 터무니없습니다. 할인 여부에 따라 DeepSeek-V4는 Anthropic의 Claude보다 30배 더 저렴할 수 있습니다. 할인이 없더라도 8배에서 20배 정도 더 저렴합니다. 이것은 작은 차이가 아닙니다. 당신이 정확히 무엇을 위해 비용을 지불하고 있는지 멈춰 서서 질문하게 만드는 수준의 차이입니다. Two Minute Papers가 이곳에 영상 형식으로 잘 정리해 두었습니다.

벤치마크 (The Benchmarks)
만약 당신이 명확하게 우월한 제품을 위해 30배 더 많은 비용을 지불하고 있다면 그럴 만한 근거가 있겠지만, 그렇지 않습니다. 수치를 보십시오: 최대 추론 노력(maximum reasoning effort) 모드에서의 DeepSeek-V4-Pro는 현존하는 가장 어려운 "trust me bro" 벤치마크 중 하나인 HLE에서 90.2%를 기록했습니다. Claude Opus 4.6-Max는요? 89.1%입니다. Apex에서 DeepSeek는 Claude의 78.1%에 맞서 85.9%를 기록했습니다. Codeforces 레이팅(rating)에서 DeepSeek는 3206점을 기록하여 GPT-5.4와 대등한 수준을 보였으며 Claude를 뒤처지게 만들었습니다. 긴 문맥 검색 (long-context retrieval)에서 DeepSeek의 MMR 점수는 92.9%로 Claude의 76.3%를 압도합니다. 100만 토큰에서의 CorpusQA 정확도는 71.7% 대 53.8%입니다. 대다수의 실제 작업(real-world tasks)에서 유의미한 격차는 없습니다. 여러 중요한 카테고리에서 DeepSeek가 완전히 승리합니다. 그러면서도 당신은 비용의 아주 일부만 지불하거나, 만약 1조 개의 모든 파라미터(parameters)를 직접 호스팅(self-host)할 수 있다면 비용을 전혀 내지 않아도 됩니다. 오픈 모델(open model)이 이토록 광범위한 작업에서 폐쇄형 프런티어 모델(closed frontier models)과 대등하거나 그들을 능가한 것은 이번이 처음이며, 이는 거의 누구의 예측보다 빠르게 일어났습니다.

무료로 제공되는 100만 토큰 (A Million Tokens for Free)
100만 토큰의 문맥 창(context window)은 과거에 기업용 가격 책정을 정당화하는 핵심 기능이었습니다. Google은 Gemini를 통해 이를 제품 출시의 핵심으로 삼았습니다. 저는 2년 전 이 기능에 대해 열광했던 기억이 납니다.

이제 DeepSeek는 이를 오픈 웨이트 (open weights)로 무료로 제공합니다. 1,500페이지에 달하는 방대한 문서를 읽어달라고 요청하면, 모델은 이를 수행해냅니다. 이 엔지니어링은 이것이 어떻게 가능한지를 설명해주기 때문에 이해할 가치가 있습니다. 트랜스포머 (Transformer)의 바닐라 어텐션 (vanilla attention) 메커니즘은 이차 복잡도 (quadratic complexity)를 가집니다. 즉, 컨텍스트 길이 (context length)가 두 배가 되면 연산량은 네 배가 됩니다. 이것은 대부분의 모델에서 긴 컨텍스트를 사용하는 것을 파괴적으로 비싸게 만드는 병목 현상 (bottleneck)입니다. DeepSeek는 압축 희소 어텐션 (Compressed Sparse Attention)과 고압축 어텐션 (Heavily Compressed Attention)을 결합한 하이브리드 어텐션 아키텍처 (hybrid attention architecture)를 통해 이를 돌파했습니다. 책을 읽는 것을 생각해 보세요. 모든 단어를 동시에 처리할 수는 없으므로 요약을 하게 됩니다. DeepSeek는 이를 세 가지 수준에서 수행합니다: 토큰 수준 압축 (Token-level compression): 각 단락을 한 문장으로 요약합니다. 책은 유지하되, 더 빠르게 검색할 수 있습니다. 고압축 어텐션 (Heavily compressed attention): 목차를 봅니다. 각 장의 이름이 짧다면, 한눈에 전체 이야기를 파악할 수 있습니다. 128 대 1의 압축입니다. 압축 희소 어텐션 (Compressed sparse attention): 색인을 사용합니다. 소설에서 싸움 장면을 찾고 있나요? 색인은 상위 5개의 페이지를 알려줍니다. 모델은 중요한 것에만 집중(attend)합니다. 세 가지 계층인 요약, 구조, 색인이 결합되어 KV 캐시 (KV-cache) 메모리 요구 사항을 약 90% 감소시킵니다. 모든 정보를 잃지 않으면서 100개의 단어를 10개의 저장 공간으로 압축하는 것입니다. 벤치마크가 이를 뒷받침합니다. MRCR에서 검색 성능은 128K 토큰 내에서 놀라울 정도로 안정적으로 유지되며, 100만 토큰까지 강력하게 유지됩니다.

효율성의 도약
이전의 DeepSeek-V3.2도 이미 효율적이었습니다. DeepSeek-V4는 그것의 개선판이 아닙니다. 이것은 완전히 다른 범주의 효율성입니다. 100만 토큰 컨텍스트에서 DeepSeek-V4-Pro는 V3.2와 비교했을 때 단일 토큰 FLOPs (FLOPs)의 27%와 KV 캐시의 10%만을 필요로 합니다. Flash 모델은 훨씬 더 극단적입니다: FLOPs의 10%와 KV 캐시의 7%만을 사용합니다. 이를 번역하자면, Pro 모델은 동일한 출력을 위해 이전 세대보다 약 3배 적은 컴퓨팅 파워가 필요하며, Flash 모델은 약 10배 적은 파워가 필요합니다. 이것은 점진적인 발전이 아닙니다.

이것은 대규모 AI 추론 (Inference)을 실행하는 데 드는 비용 계산법을 재편하는 세대적 도약입니다. 대규모 추론 워크로드에 Claude 또는 GPT를 의존하는 기업이라면, 운영 비용의 극히 일부만 사용하거나 완전히 자체 호스팅 (Self-hosting)함으로써 최첨단 (Frontier) 모델과 일치하거나 이를 능가하는 유사한 결과를 얻을 수 있습니다. 두 가지 아키텍처 혁신은 논문을 멈춰 서서 다시 읽게 만들 정도로 특별히 언급할 가치가 있습니다. Manifold-Constrained Hyper-Connections는 표준 잔차 연결 (Residual connections)을 더 수학적으로 원칙적인 것으로 대체합니다. 즉, 잔차 매핑 행렬 (Residual mapping matrix)이 이중 확률 행렬 (Doubly stochastic matrices)의 매니폴드 (Manifold)로 제한되어, 스펙트럼 노름 (Spectral norm)이 1 이하로 유지되도록 보장합니다. 쉽게 말해, 깊은 레이어 스택을 거치면서 신호가 폭발하거나 소멸하는 것을 방지합니다. 새로운 옵티마이저 (Optimiser)인 Muon은 대부분의 모듈에서 AdamW를 대체하며, 더 나은 안정성과 함께 더 빠르게 수렴합니다. DeepSeek은 단순히 규모를 키우는 것이 아니라, 근본적인 원리들을 재고하고 있습니다.

DeepSeek의 부족한 점
DeepSeek V4에 약점이 없다고 가장하는 것은 정직하지 못한 일일 것입니다. 여기에는 두 가지 주목할 만한 약점이 있습니다. 우선, 이는 단일 모달 (Unimodal)입니다. 이미지도, 오디오도 없습니다. 적어도 지금으로서는 눈과 귀가 멀어 있는 상태입니다. 만약 당신의 워크플로우가 집중적인 이미지 분석이나 멀티모달 (Multimodal) 추론을 포함한다면, Claude가 여전히 우위에 있지만, 그 우위가 향후 12개월 동안 유지될 것이라고 상상하기는 어렵습니다. 만약 그 우위가 필요하다면, 아마도 Qwen과 결합해야 할 것입니다. 또한 이 논문은 드물고 진정으로 신선한 사실을 인정합니다. 훈련을 안정화하기 위해 사용된 두 가지 기술인 Anticipatory Routing과 SwiGLU Clamping이 효과적으로 작동하지만, 제작자들은 왜 그런지에 대해 완전히 확신하지 못한다는 점입니다. 이것은 대부분의 AI 기업들로부터 듣게 되는 다듬어진 기업용 회피 답변이 아닙니다. 이것은 불확실성에 대한 실제적인 인정을 담은 진짜 연구 논문입니다. 이러한 투명성은 존경스럽지만, 이는 특정 엣지 케이스 (Edge cases) 상황에서의 동작에 대해 미해결 질문들이 남아 있음을 의미합니다. 컨텍스트 윈도우 (Context window) 성능 또한 한계에 도달할수록 저하됩니다. 모델은 망각하고, 표류하며, 환각 (Hallucinate)을 일으킵니다. 텍스트가 많아질수록 진실은 줄어듭니다.

이것은 DeepSeek만의 문제가 아니라 보편적인 문제이지만, 그럼에도 불구하고 알아둘 가치가 있습니다. 궤적 (The Trajectory) 오픈 모델과 폐쇄형 모델 (Closed models) 사이의 격차는 좁혀지고 있지 않습니다. 이미 좁혀졌습니다. 지식 벤치마크 (Knowledge benchmarks)에서 DeepSeek-V4-Pro는 SimpleQA에서 이전의 모든 오픈 소스 베이스라인 (Baselines)을 절대 백분율 20% 포인트 차이로 앞지르며 오픈 모델의 새로운 SOTA (State-of-the-art)를 기록했습니다. 추론 (Reasoning) 측면에서는 프런티어 (Frontier) 모델과 대등하거나 이를 능가합니다. 코드 (Code) 측면에서는 GPT-5.4와 경쟁 가능한 수준이며, 이는 이를 달성한 최초의 오픈 모델입니다. 에이전트 (Agents) 측면에서는 Claude Opus 4.5에 근접합니다. 긴 문맥 (Long-context) 측면에서는 Gemini-3.1-Pro를 능가합니다. 이 중 어느 것도 이렇게 빨리 일어나서는 안 되는 일이었습니다. 1년 전의 통념은 오픈 모델이 프런티어 모델보다 무기한으로 12개월에서 18개월 정도 뒤처질 것이라는 것이었습니다. DeepSeek-V4는 몇몇 좁은 범주에서 아마도 3~6개월 정도 뒤처져 있지만, 다른 범주에서는 앞서 나가고 있습니다. 독점적 기존 기업들은 갈 길이 막막해지고 있습니다. 결론 (Conclusion) 우리는 전례 없는 현상을 목격하고 있습니다. 제로에 가까운 가격으로 제공되는 프런티어 수준의 지능입니다. 1.6조 개의 파라미터 (Parameter)를 가진 모델. 100만 토큰의 문맥 (Context). 최고의 독점 시스템과 대등하거나 이를 능가하는 벤치마크 점수. 오픈 웨이트 (Open weights). 무료로 사용 가능하고, 실행 비용이 저렴하며, 셀프 호스팅 (Self-host)이 가능합니다. "측정하기에 너무 저렴한 (Too cheap to meter)"이라는 문구는 과거에는 하나의 열망이었으나, 이제는 하나의 설명이 되어가고 있습니다. 만약 당신이 DeepSeek-V4를 시도해보지도 않고 여전히 Claude에 비용을 지불하고 있다면, 당신은 품질에 비용을 지불하는 것이 아닙니다. 당신은 관성, 브랜드 인지도, 미국의 데이터 센터, 그리고 익숙한 채팅창이 주는 편안함에 비용을 지불하고 있는 것입니다. 그것들이 아무것도 아니라는 뜻은 아니지만, 30배의 가격을 지불할 가치는 없습니다.

Claude: 돈 낭비

요약

핵심 포인트

댓글