DeepSeek V4 Pro 가 FoodTruck 벤치마크에서 GPT-5.2 와 동점, 에이전트 벤치마크 약 10 주 후 ~17 배 저렴함

FoodTruck Bench — 30 일 에이전트 벤치마크를 테스트했습니다. 이 벤치마크는 모델이 34 가지 도구 (위치, 가격, 재고, 직원, 날씨, 이벤트) 를 사용하여 푸드 트럭을 운영하며 지속적 메모리와 일일 반성을 수행합니다.

우리 벤치마크에서 프론티어 티어에 진입한 첫 중국 모델입니다. 결과적으로 Grok 4.3 Latest 와 동점했으며, GPT-5.2 의 중위값과 3% 이내이며, Opus 4.6, GPT-5.2, Grok 4.3 에 이어 전체 순위 #4 입니다.

시간의 타이밍이 흥미로운 부분입니다. 우리는 2 월 중순에 GPT-5.2 를 테스트했습니다. DeepSeek V4 Pro 는 그 후 10 주 만에 해당 수치를 맞추었습니다. 중국 - 미국 프론티어 격차에는 보통 1 년이 걸렸는데, 지금은 약 10 주로 줄었습니다.

가격 격차는 더 가파릅니다. GPT-5.2 는 입력 $1.75/M, 출력 $14/M 입니다. DeepSeek V4 Pro 는 입력 $0.435/M, 출력 $0.87/M 으로, 캐시 읽기 할인도 추가되어 동일한 에이전트 작업에 대해 ~17 배 저렴합니다. 이는 현재 프로모션 가격이지만, DeepSeek 의 기록은 프로모션이 바닥선이 된다는 것입니다.

비용 효율성 (API 지출당 순 자산) 측면에서 DeepSeek V4 Pro 는 리더보드 전체 #2 입니다. Gemma 4 31B 에 이어 있으며, 모든 프리미엄 티어 모델보다 앞서 있습니다.

특히 Grok 4.3 Latest 와 비교할 때, 중위값은 동일한 가격에 거의 동점하지만, DeepSeek 일관성에서 승리합니다. 대출 없음, 음식 폐기량 ~6 배 감소, 하루당 제공 식사량 30% 증가, 결과 분포 2.4 배 좁음입니다. Grok 은 DeepSeek 의 피크를 맞춥니다. DeepSeek 는 항상 자신의 피크를 맞춥니다.

Opus 4.6 의 최고 실행은 여전히 DeepSeek 보다 높습니다. Gemma 는 여전히 저렴합니다. 그 외에는 중국 가격 포인트에서 진정한 프론티어 티어 경쟁자입니다.

업데이트 — Xiaomi MiMo v2.5 Pro 도 이제 실행을 완료했습니다: 5/5 생존, +1,019% 중위값 ROI, $22,388 중위값 순 자산, $2.41/run. 리더보드 #6 에 진입하며 Gemma 4 31B 와 Sonnet 4.6 사이입니다. 결과와 일관성에서 DeepSeek 에게 뒤처집니다 (더 넓은 분산 — $9K 최저 실행 vs $29K 최고), 하지만 이 가격 포인트에서 중국 모델의 진정한 결과입니다.

이제 두 중국 모델이 상위 6 에 진입했으며, 둘 다 $3.5/run 미만입니다. 우리가 2 월에 이 벤치마크를 시작했을 때, 이러한 티어는 미국 실험실 밖에는 존재하지 않았습니다.

DeepSeek 과 Xiaomi MiMo 팀에게 축하합니다.

전체 글: https://foodtruckbench.com/blog/deepseek-v4-pro
리더보드: https://foodtruckbench.com

Insights

DeepSeek V4 Pro 가 FoodTruck 벤치마크에서 GPT-5.2 와 동점, 에이전트 벤치마크 약 10 주 후 ~17 배 저렴함

요약

핵심 포인트

댓글

Twin: AI 컨텍스트 재구축을 위한 가능한 해결책

Twin: AI 컨텍스트 재구축을 위한 가능한 해결책

왜 for-agents.json과 공개 코퍼스(Public Corpus)가 또 다른 랜딩 페이지보다 나은가

Karpathy의 '$10 반지의 제왕': LLM이 질문에 답하는 대신 세계를 구축하기 시작하는 순간

Twin: AI 컨텍스트 재구축을 위한 가능한 해결책

왜 for-agents.json과 공개 코퍼스(Public Corpus)가 또 다른 랜딩 페이지보다 나은가

Karpathy의 '$10 반지의 제왕': LLM이 질문에 답하는 대신 세계를 구축하기 시작하는 순간