10개 모델 테스트 결과: 81.6%에서 10%까지. 무료 티어는 완전한 도박입니다.
요약
10개의 AI 모델을 대상으로 에이전트 코딩 작업 성능을 테스트한 결과, Grok 4.3이 81.6%로 가장 높은 성능을 기록했습니다. 무료 티어 모델은 출력 토큰 제한으로 인해 성능 편차가 매우 크며, 실질적인 개발 효율을 고려할 때 유료 모델 사용이 권장됩니다.
핵심 포인트
- Grok 4.3이 81.6% 점수로 배치 12 리더보드 1위 달성
- Perceptron Mk1은 압도적인 가성비로 높은 통과율 기록
- 무료 티어 모델은 토큰 제한으로 인해 성능이 매우 불안정함
- Owl Alpha는 무료 모델 중 드물게 사용 가능한 수준의 성능 제공
Vilius Vystartas 작성 | 2026년 5월
동일한 10가지 에이전트 코딩 작업(agent coding tasks)을 통해 또 다른 10개의 모델을 테스트했습니다. 그중 4개는 무료 티어 (free-tier) 모델이었으며, 그 결과의 범위는 터무니없었습니다. Owl Alpha는 치명적인 실패(hard fails) 없이 76.7%를 기록한 반면, Laguna M.1은 10%를 기록하며 10개 작업 중 9개에서 쓰레기 같은 결과물을 내놓았습니다. 디버깅 시간을 소모한다면 무료 티어는 결코 공짜가 아닙니다.
10개 모델 전체 비용: $0.10. 유료 모델(10개 중 6개)의 합계 비용은 $0.10였습니다.
배치 12 리더보드 (Batch 12 Leaderboard)
| # | 모델 (Model) | 점수 (Score) | P/P/F | 비용 (Cost) | 시간 (Time) | 카테고리 (Category) |
|---|---|---|---|---|---|---|
| 🥇 | Grok 4.3 | 81.6% | 7/3/0 | $0.017 | 39.9s | 유료 (xAI) |
| ... |
주요 헤드라인 (The Headlines)
Grok 4.3 (81.6%, $0.017, 39.9s) — Grok의 최신 릴리스는 치명적인 실패 없이 이번 배치를 장악했습니다. 7번의 깔끔한 통과(clean passes), 3번의 부분적 통과(partials)를 기록했습니다. Process-monitor는 Grok 4.3의 경쟁자들이 놓친 유일한 완전 통과(full pass) 항목이었습니다. xAI의 Grok 라인업은 조용히 일관성을 유지하고 있습니다 — 4.1 Fast (76.7%), 4.20 (75%), 그리고 이제 4.3 (81.6%)까지 — 모두 프리미엄 가격대로 진입하지 않으면서도 80% 이상의 클럽을 위협할 수 있는 거리 내에 있습니다.
Perceptron Mk1 (79.9%, $0.002, 29.3s) — 새로운 제품군이 거의 80%에 육박하는 성능으로 데뷔했습니다. 0.2센트라는 비용으로 이번 배치에서 가장 많은 8번의 통과를 기록했습니다. 단 한 번의 실패(17%에서 발생한 regex-extract)는 소형 모델(small models)의 알려진 약점입니다. 이 통과 대비 가격 비율(price-to-pass ratio)을 고려할 때, Perceptron Mk1은 이번 배치의 가성비 모델입니다.
Owl Alpha (무료, 76.7%, 83.0s) — 치명적인 실패가 없고 5번의 완전 통과를 기록한 무료 모델입니다. 이는 눈에 띄는 무료 티어 결과입니다. 일부 작업에서 유료 모델보다 2배 더 긴 시간(csv-stats에서 24초, 다른 필드에서는 1~3초)이 소요되지만, 코드는 기능적으로 작동합니다. 지연 시간(latency)이 결정적이지 않다면 사용 가능합니다.
무료 티어 로또 (The Free Tier Lottery)
4개의 무료 모델. 결과:
| 모델 | 점수 | 판정 |
|---|---|---|
| Owl Alpha | 76.7% | 사용 가능 (Usable) — 치명적인 실패(hard fails) 없음, 10개 중 5개 완전 통과. 느리지만 기능적임. |
| ... |
399-400 출력 토큰(output tokens)이라는 무료 티어의 제한이 진짜 문제입니다. Laguna M.1 및 CoBuddy와 같은 모델은 모든 응답을 잘라버리며(truncate), 부분적인 정답이 될 수 있었던 것을 실패로 만듭니다. Owl Alpha는 출력 내용이 제한 범위 내에 들어갈 만큼 간결하기 때문에 이 제한에도 불구하고 작동합니다.
Perceptron Mk1에 $0.002를 지불하고 10개 중 8개를 통과시키거나, Laguna M.1을 무료로 사용하여 10개 중 1개만 통과시키십시오. 계산은 명확합니다.
실망스러운 결과 (Disappointments)
GPT Chat Latest (73.3%, $0.043) — OpenAI의 범용 엔드포인트(catch-all endpoint)는 쉬운 작업(파일 파싱(file-parse), CSV 통계(csv-stats), SQL 쿼리(sql-query) 모두 통과)에서는 견고했으나, 버그 수정(fix-bug) 작업(0%)에서는 길고 비용이 많이 드는 환각(hallucination)을 일으키며 무너졌습니다. 이번 배치에서 가장 비싼 모델임에도 75%를 넘기지 못했습니다.
Mistral Medium 3.5 (71.6%, $0.008) — 총 12.6초로 이번 배치에서 가장 빠른 모델이었으나, 프로세스 모니터(process-monitor) 작업에서 504 게이트웨이 타임아웃(504 Gateway Timeout)이 발생하여 0점을 기록했습니다. 다른 면에서 강력해 보이는 모델에서 발생한 타임아웃 실패는 불균형적으로 큰 페널티를 부여합니다. 이것이 없었다면 Medium 3.5는 79.5%를 기록했을 것입니다.
Laguna M.1 (10%) — 제가 실행한 모든 배치 중 최악의 점수입니다. 작업 응답 중 7개가 400토큰 출력 제한에 걸려 빈 값으로 채워졌습니다. OpenRouter에 목록으로 올릴 가치조차 없습니다.
가격 대비 성능 (Price/Performance)
| 모델 | 점수 | 비용 | $/%-pt |
|---|---|---|---|
| Owl Alpha (무료) | 76.7% | $0 | $0 |
| ... |
정의상 무료 모델들이 $/%-pt 표를 점령하지만, 실제로 사용 가능한 것은 Owl Alpha뿐입니다. 유료 모델 중에서는 $0.0024/%-pt를 기록한 Perceptron Mk1이 효율성 승자입니다. GPT Chat Latest보다 포인트당 24배 더 저렴합니다.
나의 선택 (My Picks)
- 종합 베스트 (Best overall): Grok 4.3 — 81.6%, 39.9초, $0.017. 이번 배치에서 가장 깔끔한 리더보드 (leaderboard) 성적을 보여줌.
- 가성비 베스트 (유료) (Best value (paid)): Perceptron Mk1 — 79.9%, 총 $0.002. 0.2센트도 안 되는 비용으로 8회 통과.
- 최고의 무료 모델 (Best free model): Owl Alpha — 76.7%, 치명적 실패 (hard fails) 없음. 내가 프로덕션 (production) 환경에 배포할 유일한 무료 모델.
- 가장 빠른 모델 (Fastest): Mistral Medium 3.5 — 10개 작업 모두 12.6초 소요
- 완전 제외 (Skip entirely): Laguna M.1 및 모든 Laguna 무료 티어 (free-tier) 변체들. 10%의 점수로는 테스트 자체가 불가능함.
방법론 (Methodology)
이전 배치와 동일한 설정: 파일 작업 (file operations), 셸 명령 (shell commands), 오류 복구 (error recovery), 데이터 파싱 (data parsing), SQL 쿼리 (SQL queries) 등 10개의 실제 에이전트 코딩 작업 — OpenRouter를 통해 테스트됨. 최대 토큰 (Max tokens): 400. 온도 (Temperature): 0.1. 예상 출력값에 대한 패턴 매칭 (Pattern-matching) 점수 산정.
사전 검증 (Pre-flight verification) 결과 이번 배치에서는 실패가 없었음. 총 비용: $0.10. 총 데이터셋: 클라우드 및 로컬을 통틀어 168개 모델 테스트 완료.
전체 결과 및 작업별 점수: benchmarks.workswithagents.dev
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기