10개의 모델을 추가로 테스트했습니다. 5개의 새로운 제품군이 등장했으며, 모두 75% 이상의 점수를 기록했습니다.

요약

에이전트 코딩 벤치마크를 통해 10개의 모델을 추가 테스트한 결과, 5개의 새로운 모델 제품군이 모두 75% 이상의 높은 점수를 기록했습니다. Mistral Large 2411과 DeepSeek Chat V3-0324가 90% 점수를 달성하며 90% 클럽에 합류했습니다.

핵심 포인트

Mistral Large 2411과 DeepSeek Chat V3-0324가 90% 점수 달성
Sao10k 등 5개 신규 제품군이 첫 시도에서 75% 이상 기록
L3 Lunaris 8B는 매우 저렴한 비용($0.0001)으로 85% 성능 구현
커뮤니티 미세 조정 모델들이 체급 이상의 성능을 입증

Vilius Vystartas 작성 | 2026년 5월

동일한 에이전트 코딩 벤치마크 (agent coding benchmark)를 통해 10개의 모델을 추가로 테스트했습니다. 그중 5개는 완전히 검증되지 않았던 새로운 제품군인 Sao10k, Anthracite, Inflection, Mancer, Undi95 출신이었으며, 모든 모델이 첫 시도에서 75% 이상의 점수를 기록했습니다. 따라잡기가 점점 더 힘들어지고 있습니다.

두 개의 모델이 역대 최고 기록인 90%로 동점을 기록했습니다. 지금까지 테스트한 모델 중 가장 저렴한 모델은 10개 태스크 전체 벤치마크를 수행하는 데 단 0.0001달러가 소요되었습니다.

새로운 90% 클럽 멤버들

이제 이 벤치마크에서 90%에 도달한 모델은 총 8개입니다. Batch 11에서 두 개가 추가되었습니다:

Mistral Large 2411 (90%, $0.008, 46s) — Mistral의 2024년 11월 플래그십 모델로, 현재의 Large 3와 대등한 성능을 보여줍니다. 때로는 첫 번째 버전이 여전히 가장 좋을 때가 있습니다. 치명적인 실패(hard fails)는 없었으며, 10개 태스크 중 8개에서 깔끔하게 통과했습니다.

DeepSeek Chat V3-0324 (90%, $0.002, 73s) — 2024년 3월의 구형 V3 변체로, 오리지널 DeepSeek Chat과 동일한 90%를 기록했습니다. DeepSeek 변체를 테스트할 때마다 항상 80-90% 사이에 안착합니다. 이 제품군은 놀라울 정도로 일관성이 있습니다.

현재 90% 클럽에는 다음 모델들이 포함됩니다: DeepSeek Chat (original), DeepSeek Chat V3-0324, Qwen3 Coder 30B, Nemotron 3 Nano 30B, Codestral 2508, Mistral Large 2411, MiniMax M2 Her, 그리고 Baidu Ernie 4.5 300B. 총 8개의 모델입니다. 그중 7개는 전체 벤치마크 비용이 1센트 미만입니다.

5개의 제품군, 첫 시도

모든 새로운 제품군이 첫 시도에서 75% 이상의 점수로 데뷔했습니다. 이는 매우 인상적인 적중률입니다.

제품군 (Family)	모델 (Model)	점수 (Score)	비용 (Cost)	시간 (Time)
Sao10k	L3.1 Euryale 70B	85%	$0.002	29s
...
"Inflection 3 결과는 잠정적입니다 — 실험실의 응답을 기다리는 중입니다. 추후 업데이트하겠습니다.*

$0.0001의 L3 Lunaris 8B는 제가 지금까지 테스트한 모델 중 가장 저렴합니다. 1달러의 만 분의 일 가격으로 10개 태스크 전체 벤치마크를 수행할 수 있습니다. 이 정도 가격이라면, 모델을 배포하기 전에 테스트하지 않을 이유가 없습니다. Lunaris는 85%를 기록했으며, 이는 100배 더 비싼 모델들과 경쟁할 만한 수준입니다.

Sao10k 제품군(L3.1 Euryale 70B 및 L3 Lunaris 8B)이 단연 돋보입니다. 두 모델 모두 85%를 기록했으며, 둘 다 Llama 3.1/3의 미세 조정(Fine-tune) 모델이고 비용이 거의 들지 않습니다. 커뮤니티 미세 조정 모델들이 계속해서 체급 이상의 성능을 보여주고 있습니다.

회복된 모델들 (The Recoveries)

이전의 실패했던 배치에서 제외되었던 두 개의 Qwen 모델이 이번에는 성공적으로 완료되었습니다:

Qwen3 8B (80%, $0.02, 543s) — 완료를 위해 per_call_timeout: 300 설정이 필요했습니다. 모델은 유능하지만(6회 통과, 4회 부분 통과, 0회 실패) 고통스러울 정도로 느립니다. OpenRouter에서의 각 API 호출은 100-120초가 소요됩니다. 실시간 에이전트가 아닌 백그라운드 작업용으로 사용하십시오.

Qwen Plus 2025-07-28 (80%, $0.001, 19s) — 날짜가 지정된 변형 모델은 enable_thinking: false 설정 시 완벽하게 작동합니다. $0.0009에 80% 점수는 훌륭한 가성비를 보여줍니다. 하지만 대신 현재의 qwen/qwen-plus ID를 사용하십시오. 이 모델은 85%를 기록하며 날짜 접미사가 필요하지 않습니다.

가격 대비 성능 (Price/Performance)

모델	점수	비용	$/%-pt
L3 Lunaris 8B	85%	$0.0001	$0.0001
...
가장 저렴한 모델과 가장 비싼 모델 사이의 $/%-pt 비율은 254배입니다. $0.0001/%-pt인 Lunaris와 $0.0254/%-pt인 Qwen3 8B를 비교하면, 점수 등급은 같지만 비용 프로필은 극명하게 다릅니다.

나의 선택 (My Picks)

종합 베스트: Mistral Large 2411 — 90%, 46s, $0.008
가성비 베스트: L3 Lunaris 8B — 85%, 총 비용 $0.0001. 말도 안 되는 가격 대비 성능입니다.
최고의 신규 제품군 데뷔: Sao10k — 두 모델 모두 첫 시도에서 85% 기록. 이 라인업을 주목하십시오.
가장 빠른 모델: L3 Lunaris 8B — 10개 작업 전체 수행에 20초 소요

방법론 (Methodology)

이전 10개 배치와 동일한 설정입니다: 파일 작업, 쉘 명령(Shell commands), 오류 복구(Error recovery), 데이터 파싱(Data parsing), SQL 쿼리 등 10개의 실제 에이전트 코딩 작업을 OpenRouter를 통해 테스트했습니다. 최대 토큰(Max tokens): 600 (Qwen 모델), 300 (그 외 모델). 온도(Temperature): 0.1. 예상 출력값에 대한 패턴 매칭 점수 산정 방식을 사용했습니다.

사전 점검(Pre-flight verification) 결과 이번 배치에서는 실패가 없었습니다. 10개의 후보 모두 간단한 프롬프트 테스트를 통과했습니다. 총 비용: 핵심 8개 모델에 $0.05, 이후 Qwen 회복 실행에 $0.02가 소요되었습니다. 전체 데이터셋: 클라우드 및 로컬을 통틀어 총 158개 모델 테스트 완료.

전체 결과 및 태스크별 점수: benchmarks.workswithagents.dev

AI 자동 생성 콘텐츠

원문 바로가기