본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 09. 07:07

I analyzed 922 agentic task trace and found the secret weapon of DeepSeek v4

요약

본 기사는 DeepSeek v4 모델의 에이전트 작업 성능을 벤치마킹하고, 특히 비용 효율성을 분석한 내용을 담고 있습니다. 초기 예상만으로는 DeepSeek v4 Flash가 경쟁 모델 대비 매우 저렴할 것으로 추정되었으나, 실제 데이터를 분석한 결과 그 차이는 훨씬 더 크게 나타났습니다. 핵심적인 비밀 무기는 '캐시 히트율'과 '캐시 읽기/쓰기 비용 비율'의 압도적인 우위이며, DeepSeek v4 Flash는 높은 캐시 히트율(97%)과 낮은 캐시 쓰기 비용(0.02)을 통해 경쟁 모델 대비 총 비용을 획기적으로 절감하는 것으로 분석되었습니다.

핵심 포인트

  • DeepSeek v4 Flash는 에이전트 작업에서 오픈소스 최상위 성능을 보여주지만, 가장 주목할 만한 점은 압도적인 비용 효율성입니다.
  • 단순 토큰 가격 비교를 넘어 실제 장기 에이전트 작업의 비용 구조(캐시 히트율 및 읽기/쓰기 비용)를 분석하는 것이 중요합니다.
  • DeepSeek v4 Flash는 97%라는 매우 높은 캐시 히트율을 달성하여, 경쟁 모델 대비 총 비용 절감에 가장 큰 기여를 했습니다.
  • 낮은 캐시 쓰기 가격 비율(0.02) 역시 중요한 요소로, 이는 전체 비용을 추가적으로 크게 낮추는 역할을 합니다.

최근 DeepSeek v4 의 에이전트 (agent) 작업 성능 벤치마킹을 진행했습니다. 성능 면에서는 예상대로 오픈소스 모델 중 최상위권입니다. 하지만 정말 놀란 것은 비용입니다. 저렴하다는 건 알지만, 그 저렴함이 합리적인 수준은 아닙니다.

비용 추정

판매되지 않는 v4 flash 를 예시로 들겠습니다 (실제 제공자 비용을 더 잘 반영할 수 있습니다).

deepseek v4 flash price on openrouter

opus 4.7 price on openrouter

OpenRouter 가격을 보면, deepseek v4 flash 가격은 opus 4.7 가격의 약 0.03 배입니다. (장기 에이전트 작업에서 입력 토큰이 지배적 비용이기 때문에 입력 토큰 가격만 확인했습니다.) 따라서 v4 flash 가 opus 4.7 과 유사한 토큰 수를 사용하는 경우, 실제 비용은 opus 사용 대비 약 0.03 배여야 합니다.

실제 데이터

그 후 벤치마킹을 실행했습니다. openclaw (PI 를 에이전트 루프에 사용) 에서 실행되는 장기 에이전트 작업으로, 모델 제공자는 openrouter 입니다. 실제 비용 데이터는 제 마음을 놀라게 했습니다:

Avg Cost Per TaskAvg Tokens Per TaskAvg Tools Per Task
Opus 4.7$1.52966.3K12.8
DeepSeek v4 Flash$0.01961.8K14.8

deepseek v4 flash 는 토큰 사용량과 작업당 도구 호출량이 유사한 경우, opus 4.7 대비 약 0.0066 배의 비용입니다. 이는 우리가 추정했던 가격의 1/5 입니다. 어떻게 가능한 것입니까??

비밀 무기

원본 데이터를 파고들고 더 자세한 통계 자료를 수집한 후,我终于 (결국) 이유를 찾았습니다. 비밀은 캐시 히트율과 캐시 읽기 비용입니다.

Cache Hit RateCache Read-Write Price Ratio
Opus 4.787%0.08
DeepSeek v4 Flash97%0.02

이 경우의 주요 인자는 캐시 히트율입니다. DeepSeek 은 어떻게든 97% 의 캐시 히트율을 달성했습니다!!!

이 숫자가 얼마나 중요한지 모르시는 분들을 위해 설명드립니다: 이 캐시 히트율과 읽기/쓰기 가격 비율에서, 1% 더 높은 캐시 히트율은 약 20% 낮은 전체 비용을 의미합니다.

DS 는 opus 보다 10% 높은 캐시율을 달성했습니다. 이것만으로도 총 비용의 2/3 를 절감했습니다.

이차적 인자는 매우 낮은 읽기/쓰기 가격 비율 때문입니다: DS 에서 각 캐시 히트는 캐시 미스 (miss) 의 0.02 배만 소요되지만, opus 는 0.08 배입니다. 이는 openai/anthropic/gemini 가 모두 0.08~0.1 이라는 점을 고려하면 매우 비정상적입니다. 이것만으로도 전체 비용을 절반으로 줄일 수 있습니다.

위 내용은 저의 실험, 측정 및 통계 데이터일 뿐입니다. DS 가 어떻게 그러한 수치를 달성했는지 저는 알지 못합니다. 이 분야에 더 잘 알고 있는 사람이 이를 설명하거나 추측해 주시면 감사하겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0