본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 05. 22:27

DeepSeek V4 Pro 가 FoodTruck 벤치마크에서 GPT-5.2 와 동점, 에이전트 벤치마크 약 10 주 후 ~17 배 저렴함

요약

DeepSeek V4 Pro가 'FoodTruck Bench'라는 30일 에이전트 벤치마크에서 GPT-5.2와 동등한 성능을 보여주며 프론티어 티어에 진입했습니다. 특히, DeepSeek V4 Pro는 동일한 수준의 에이전트 작업 수행 시 기존 모델 대비 최대 17배 저렴하여 비용 효율성 측면에서 압도적인 우위를 점하고 있습니다. 이는 중국 기반 모델들이 짧은 시간 내에 미국 선두 그룹을 따라잡으며 AI 기술 격차를 빠르게 줄이고 있음을 보여줍니다.

핵심 포인트

  • DeepSeek V4 Pro는 30일 에이전트 벤치마크에서 GPT-5.2와 동등한 성능(중위값 기준)을 기록하며 최상위권에 진입했습니다.
  • 동일한 에이전트 작업 수행 시, DeepSeek V4 Pro의 비용은 경쟁 모델 대비 최대 17배 저렴하여 뛰어난 비용 효율성을 입증했습니다.
  • 최근 AI 기술 발전 속도가 매우 빨라져, 과거 1년 걸리던 중국-미국 프론티어 격차가 약 10주 만에 줄었습니다.
  • DeepSeek V4 Pro는 API 지출당 순 자산(Net Asset per API Spend) 측면에서 상위권에 위치하며 비용 효율성 리더보드에서도 강세를 보였습니다.

FoodTruck Bench — 30 일 에이전트 벤치마크를 테스트했습니다. 이 벤치마크는 모델이 34 가지 도구 (위치, 가격, 재고, 직원, 날씨, 이벤트) 를 사용하여 푸드 트럭을 운영하며 지속적 메모리와 일일 반성을 수행합니다.

우리 벤치마크에서 프론티어 티어에 진입한 첫 중국 모델입니다. 결과적으로 Grok 4.3 Latest 와 동점했으며, GPT-5.2 의 중위값과 3% 이내이며, Opus 4.6, GPT-5.2, Grok 4.3 에 이어 전체 순위 #4 입니다.

시간의 타이밍이 흥미로운 부분입니다. 우리는 2 월 중순에 GPT-5.2 를 테스트했습니다. DeepSeek V4 Pro 는 그 후 10 주 만에 해당 수치를 맞추었습니다. 중국 - 미국 프론티어 격차에는 보통 1 년이 걸렸는데, 지금은 약 10 주로 줄었습니다.

가격 격차는 더 가파릅니다. GPT-5.2 는 입력 $1.75/M, 출력 $14/M 입니다. DeepSeek V4 Pro 는 입력 $0.435/M, 출력 $0.87/M 으로, 캐시 읽기 할인도 추가되어 동일한 에이전트 작업에 대해 ~17 배 저렴합니다. 이는 현재 프로모션 가격이지만, DeepSeek 의 기록은 프로모션이 바닥선이 된다는 것입니다.

비용 효율성 (API 지출당 순 자산) 측면에서 DeepSeek V4 Pro 는 리더보드 전체 #2 입니다. Gemma 4 31B 에 이어 있으며, 모든 프리미엄 티어 모델보다 앞서 있습니다.

특히 Grok 4.3 Latest 와 비교할 때, 중위값은 동일한 가격에 거의 동점하지만, DeepSeek 일관성에서 승리합니다. 대출 없음, 음식 폐기량 ~6 배 감소, 하루당 제공 식사량 30% 증가, 결과 분포 2.4 배 좁음입니다. Grok 은 DeepSeek 의 피크를 맞춥니다. DeepSeek 는 항상 자신의 피크를 맞춥니다.

Opus 4.6 의 최고 실행은 여전히 DeepSeek 보다 높습니다. Gemma 는 여전히 저렴합니다. 그 외에는 중국 가격 포인트에서 진정한 프론티어 티어 경쟁자입니다.

업데이트 — Xiaomi MiMo v2.5 Pro 도 이제 실행을 완료했습니다: 5/5 생존, +1,019% 중위값 ROI, $22,388 중위값 순 자산, $2.41/run. 리더보드 #6 에 진입하며 Gemma 4 31B 와 Sonnet 4.6 사이입니다. 결과와 일관성에서 DeepSeek 에게 뒤처집니다 (더 넓은 분산 — $9K 최저 실행 vs $29K 최고), 하지만 이 가격 포인트에서 중국 모델의 진정한 결과입니다.

이제 두 중국 모델이 상위 6 에 진입했으며, 둘 다 $3.5/run 미만입니다. 우리가 2 월에 이 벤치마크를 시작했을 때, 이러한 티어는 미국 실험실 밖에는 존재하지 않았습니다.

DeepSeek 과 Xiaomi MiMo 팀에게 축하합니다.

전체 글: https://foodtruckbench.com/blog/deepseek-v4-pro
리더보드: https://foodtruckbench.com

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0