두 모델이 에이전트 코딩(Agent Coding)에서 90%를 달성했습니다. 하나는 1페니 미만의 비용이 들었습니다.

요약

10가지 에이전트 코딩 태스크를 통해 다양한 AI 모델의 성능과 비용 효율성을 테스트한 결과입니다. Qwen3 Coder 30B와 DeepSeek Chat이 90%의 높은 정확도를 기록했으며, LFM 2 24B는 압도적인 가성비를 보여주었습니다.

핵심 포인트

Qwen3 Coder 30B가 90% 정확도와 매우 낮은 비용으로 종합 베스트 선정
LFM 2 24B는 $0.0002라는 경이로운 비용으로 85% 성능 달성
고비용 모델인 Claude Opus 4는 에이전트 코딩 용도로 과도한 비용 발생
Qwen3 14B는 사고 모드 문제로 인해 에이전트 코딩에 부적합

Vilius Vystartas 작성 | 2026년 5월

동일한 10가지 에이전트 코딩 (Agent Coding) 태스크를 통해 10개의 모델을 추가로 테스트했습니다. 두 모델이 역대 최고 기록과 타이를 이루었습니다. 하나는 비용이 $0.0002였습니다. 다른 하나는 $0.0018로 해당 점수에 도달했는데, 이는 70% 점수를 기록하는 대부분의 모델보다 저렴합니다.

Batch 10은 지금까지 중 가장 저렴한 배치였습니다.

선두주자 (The Leaders)

두 모델이 치명적인 실패(Hard fails) 없이 90%를 기록하며, MiniMax M2 Her 및 Baidu Ernie 4.5 300B와 함께 이 벤치마크에서 가장 높은 점수를 기록한 모델 대열에 합류했습니다:

Qwen3 Coder 30B A3B — 28초 만에 90% 달성, 비용 $0.0004. 불필요한 사고 토큰 (Thinking tokens)에 예산을 낭비하지 않는 효율적인 코더입니다.

DeepSeek Chat (original) — 59초 만에 90% 달성, 비용 $0.0018. 오리지널 DeepSeek Chat은 에이전트 코딩 (Agent coding) 분야에서 여전히 최신 모델들과 경쟁하고 있습니다. 최신 모델이 항상 더 나은 것을 의미하지는 않습니다.

놀라운 결과 (The Surprises)

LFM 2 24B A2B (85%, $0.0002, 15s)는 제가 테스트한 모델 중 가장 저렴했습니다. Liquid의 데뷔 제품군인 이 모델은 터무니없을 정도로 가성비가 좋습니다. 10개 태스크 전체 벤치마크 비용이 말 그대로 $0.0002입니다. 이 정도의 가격 대비 성능 (Price/performance ratio)이라면, 더 비싼 대안을 선택하기 전에 모델을 테스트해보지 않을 이유가 없습니다.

**Mistral Small 3.2 (85%, $0.0004)**는 확실한 업그레이드입니다. Small 라인업은 버전을 거치며 75%에서 85%로 상승했습니다. 동일한 예산 계층에서 10포인트의 도약을 이뤄냈습니다. Mistral은 올바른 부분을 계속 개선하고 있습니다.

Qwen3 14B는 10개 태스크 모두에서 0%를 기록했습니다. 300 토큰에서 억제할 수 없는 필수 사고 모드 (Mandatory thinking mode) 때문에 모든 요청이 출력을 생성하기 전에 타임아웃 (Timeout) 됩니다. 에이전트 코딩 (Agent coding) 용도로는 건너뛰십시오.

**Cydonia 24B V4.1 (80%, $0.001)**은 TheDrummer의 새로운 제품군을 선보였습니다. 치명적인 실패 (Hard fails)가 없었습니다. 주목할 만합니다.

실망스러운 결과 (The Duds)

Qwen3.7 Max (85%, $0.13, 295초)는 비용이 300배 저렴한 보급형 모델들과 동일한 점수를 기록했습니다. 사고 모드 세금 (Thinking mode tax)이 작용하고 있습니다. 정확도는 갖추었지만, 5분을 기다려야 하며 매 초마다 비용을 지불하게 됩니다.

Claude Opus 4 (80%, $0.10, 76초)는 한 번의 치명적인 실패 (Hard fail)가 있었습니다. 10개 태스크당 $0.10인 최상위 프리미엄 모델임을 감안할 때, 이는 기대 이하입니다. 나쁜 모델은 아니지만, 타이트한 토큰 예산 내에서의 에이전트 코딩 (Agent coding) 용도로는 과합니다 (Overkill).

Aion 1.0 (80%)은 두 번의 치명적인 실패 (hard fails)가 있었으며, 160초로 가장 느렸습니다. 아키텍처 (Architecture)는 흥미롭지만, 프로덕션 에이전트 (Production agent) 작업에 투입될 준비는 되지 않았습니다.

나의 선택 (My Picks)

종합 베스트 (Best overall): Qwen3 Coder 30B A3B — 90%, 28초, $0.0004
가성비 베스트 (Best value): LFM 2 24B A2B — 85%, 총 $0.0002. 말도 안 되는 가격 대비 성능 (Price/performance).
가장 빠른 모델 (Fastest): LFM 2 24B A2B — 정확히 15초
가장 많이 개선된 모델 (Most improved): Mistral Small 3.2 — 버전에 따라 75% → 85%로 상승
완전 제외 (Skip entirely): 에이전트 작업용 Qwen3 14B

방법론 (Methodology)

파일 작업 (File operations), 셸 명령 (Shell commands), 오류 복구 (Error recovery), 데이터 파싱 (Data parsing) 등 10가지의 실제 에이전트 코딩 (Agent coding) 작업을 OpenRouter를 통해 각 모델별로 테스트했습니다. 최대 토큰 (Max tokens): 300. 온도 (Temperature): 0.1. 결과는 예상 출력값과의 패턴 매칭 (Pattern matching)을 통해 점수를 산출했습니다. 사전 검증 (Pre-flight verification) 단계에서 배치 (Batch)를 낭비하기 전에 2개의 모델 (Ernie 4.5 21B — HTTP 429, Trinity Mini — 빈 콘텐츠)을 잡아냈습니다.

총 배치 비용 (Total batch cost): 9개 모델 기준 $0.14. Qwen3.7 Max 혼자서 $0.13를 차지했는데, 이는 사고 비용 (Thinking tax) 때문입니다.

총 테스트 모델 수: 148개 (138개에서 증가).

전체 결과 및 작업별 점수: benchmarks.workswithagents.dev

확인해 보시는 것이 좋으니까요.

AI 자동 생성 콘텐츠

원문 바로가기