X요약2026. 06. 09. 01:16

DeepSWE와 DeepSeek V4 Pro: 벤치마크 설계 의도와 실행 결과 분석

요약

DeepSWE 벤치마크를 통해 DeepSeek V4 Pro와 reasoning Max 모델의 성능을 직접 테스트한 결과입니다. 약 1B 토큰을 사용하여 실행했으나 5.31%라는 낮은 성공률을 기록했으며, 비용 효율적인 캐시 활용의 중요성을 강조합니다.

핵심 포인트

DeepSeek V4 Pro 모델의 DeepSWE 벤치마크 결과 5.31% 기록
캐시 인지 가격 책정(cache-aware pricing)을 통해 비용을 $433에서 $12로 절감
에이전트 타임아웃 및 낮은 성공률에 대한 추가 조사 필요성 제기
Grok Build 기반 Composer 2.5는 약 10%의 성능 기록

DeepSWE와 DeepSeek V4 Pro: 분명 이 벤치마크는 GPT 5.5를 용이하게 하도록 설계되었으며, mini-swe는 테스트된 많은 모델에 이상적이지 않지만, 개인적으로 저는 DeepSeek 공식 API를 사용하여 V4 Pro와 reasoning Max를 대상으로 이를 실행해 보았습니다. 약 1B(10억) 토큰을 사용했으며 최종적으로 겨우 5.3%를 얻었습니다 😢

예상 비용:

cache-hit (캐시 히트) 입력: $3.54
cache-miss (캐시 미스) 입력: $3.74
출력: $4.89
총계: $12.18

캐시 인지 가격 책정 (cache-aware pricing)이 없었다면 동일한 토큰 양은 약 $433.76 정도로 보였을 것이기에 😱, 여기서 캐시 회계 (cache accounting)는 필수적입니다.

AI 분석의 결론:
인프라/방법론 관점에서 볼 때 이는 깔끔한 direct-DeepSeek 실행이었습니다: OpenRouter의 모호함도, Docker 설정 실패도, 누락된 사고 메타데이터 (thinking metadata)도, 재시도 (retries)도 없었습니다. 결과는 낮습니다: 113개 중 6개 = 5.31%이며, 3개의 에이전트 타임아웃 (agent timeouts)이 실패로 계산되었습니다.

다른 분들이 여기서 구체적으로 어떤 일이 일어나고 있는지 확인해 보시기를 권합니다. 결과가 정말 이상해 보이지만, 코드는 공개되어 있고, 검증기 (verifiers)도 공개되어 있습니다. 저는 현재 reasoning High로 재시도 중이며, 나중에 다른 하네스 (harness)로 시도해 볼 예정입니다.

Grok Build를 사용한 Composer 2.5는 약 10%를 기록했습니다.

우리는 계속해서 조사해야 합니다. 현재 MiniMax M3를 테스트 중입니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeepSWE와 DeepSeek V4 Pro: 벤치마크 설계 의도와 실행 결과 분석

요약

핵심 포인트

댓글