r/LocalLLaMA분석2026. 04. 27. 22:18

DeepSeek V4 Pro 의 지능 밀도 감소

요약

DeepSeek-V3.2는 Gemini 3.0-Pro와 같은 모델에 비해 토큰 효율성 개선이 필요하다는 지적이 있었으나, 최신 버전인 DeepSeek V4 Pro에서는 상황이 더욱 악화되었다. 특히 비추상 모드에서도 이전 버전에 비해 훨씬 많은 토큰을 사용하며, 모델 크기가 약 2.5배 증가했음에도 불구하고 '지능 밀도(intelligence density)'가 개선되지 않고 오히려 감소한 것으로 분석된다. 이로 인해 유사 성능의 경쟁 모델 대비 처리 속도와 효율성 면에서 큰 격차가 발생하고 있다.

핵심 포인트

DeepSeek V4 Pro는 이전 버전(V3.2)보다 토큰 사용량이 증가하여 효율성이 떨어졌다.
모델 크기(1.6T vs 0.67T)가 크게 늘었음에도 불구하고, 지능 밀도(intelligence density) 개선이 이루어지지 않았다.
DeepSeek V4 Pro는 유사 성능의 경쟁 모델 대비 약 10배 더 많은 토큰을 필요로 한다.
이는 동일한 처리량(TPS) 가정 시, DeepSeek V4 Pro가 작업을 완료하는 데 훨씬 오랜 시간이 걸림을 의미한다.

V3.2 논문에서는 다음과 같이 언급했습니다:

>둘째, 토큰 효율성은 여전히 과제로 남아있습니다. DeepSeek-V3.2 는 Gemini 3.0-Pro 와 같은 모델의 출력 품질과匹敵하기 위해 더 긴 생성 궤적 (즉, 더 많은 토큰) 이 필요합니다. 향후 작업은 모델의 추론 체인의 지능 밀도 (intelligence density) 를 최적화하여 효율성을 개선하는 데 중점을 둘 것입니다.

그러나 V4 Pro 에서는 상황이 오히려 악화되었습니다. 비추상 모드 (non-thinking mode) 도 V3.2 보다 훨씬 많은 토큰을 사용합니다. 또한 V4 Pro(1.6T) 는 V3.2(0.67T) 의 약 2.5 배 더 큽니다. 이는 모델의 지능 밀도 (intelligence density) 가 개선된 것이 아니라 감소했음을 시사합니다!

GPT-5.4 와 GPT-5.5 와 비교하면 격차가 더욱 큽니다. DeepSeek 는 유사한 성능을 달성하기 위해 약 10 배 더 많은 토큰이 필요합니다. 동일한 TPS(초당 처리량) 를 가정할 경우, 이는 DeepSeek V4 Pro 가 같은 작업을 완료하는 데 약 10 배 더 오래 걸린다는 것을 의미합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeepSeek V4 Pro 의 지능 밀도 감소

요약

핵심 포인트

댓글