DeepSeek V4 Pro 의 지능 밀도 감소
요약
DeepSeek-V3.2는 Gemini 3.0-Pro와 같은 모델에 비해 토큰 효율성 개선이 필요하다는 지적이 있었으나, 최신 버전인 DeepSeek V4 Pro에서는 상황이 더욱 악화되었다. 특히 비추상 모드에서도 이전 버전에 비해 훨씬 많은 토큰을 사용하며, 모델 크기가 약 2.5배 증가했음에도 불구하고 '지능 밀도(intelligence density)'가 개선되지 않고 오히려 감소한 것으로 분석된다. 이로 인해 유사 성능의 경쟁 모델 대비 처리 속도와 효율성 면에서 큰 격차가 발생하고 있다.
핵심 포인트
- DeepSeek V4 Pro는 이전 버전(V3.2)보다 토큰 사용량이 증가하여 효율성이 떨어졌다.
- 모델 크기(1.6T vs 0.67T)가 크게 늘었음에도 불구하고, 지능 밀도(intelligence density) 개선이 이루어지지 않았다.
- DeepSeek V4 Pro는 유사 성능의 경쟁 모델 대비 약 10배 더 많은 토큰을 필요로 한다.
- 이는 동일한 처리량(TPS) 가정 시, DeepSeek V4 Pro가 작업을 완료하는 데 훨씬 오랜 시간이 걸림을 의미한다.
V3.2 논문에서는 다음과 같이 언급했습니다:
>둘째, 토큰 효율성은 여전히 과제로 남아있습니다. DeepSeek-V3.2 는 Gemini 3.0-Pro 와 같은 모델의 출력 품질과匹敵하기 위해 더 긴 생성 궤적 (즉, 더 많은 토큰) 이 필요합니다. 향후 작업은 모델의 추론 체인의 지능 밀도 (intelligence density) 를 최적화하여 효율성을 개선하는 데 중점을 둘 것입니다.
그러나 V4 Pro 에서는 상황이 오히려 악화되었습니다. 비추상 모드 (non-thinking mode) 도 V3.2 보다 훨씬 많은 토큰을 사용합니다. 또한 V4 Pro(1.6T) 는 V3.2(0.67T) 의 약 2.5 배 더 큽니다. 이는 모델의 지능 밀도 (intelligence density) 가 개선된 것이 아니라 감소했음을 시사합니다!
GPT-5.4 와 GPT-5.5 와 비교하면 격차가 더욱 큽니다. DeepSeek 는 유사한 성능을 달성하기 위해 약 10 배 더 많은 토큰이 필요합니다. 동일한 TPS(초당 처리량) 를 가정할 경우, 이는 DeepSeek V4 Pro 가 같은 작업을 완료하는 데 약 10 배 더 오래 걸린다는 것을 의미합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기