10개 모델 테스트 결과: 81.6%에서 10%까지. 무료 티어는 완전한 도박입니다.

Vilius Vystartas 작성 | 2026년 5월

동일한 10가지 에이전트 코딩 작업(agent coding tasks)을 통해 또 다른 10개의 모델을 테스트했습니다. 그중 4개는 무료 티어 (free-tier) 모델이었으며, 그 결과의 범위는 터무니없었습니다. Owl Alpha는 치명적인 실패(hard fails) 없이 76.7%를 기록한 반면, Laguna M.1은 10%를 기록하며 10개 작업 중 9개에서 쓰레기 같은 결과물을 내놓았습니다. 디버깅 시간을 소모한다면 무료 티어는 결코 공짜가 아닙니다.

10개 모델 전체 비용: $0.10. 유료 모델(10개 중 6개)의 합계 비용은 $0.10였습니다.

배치 12 리더보드 (Batch 12 Leaderboard)

#	모델 (Model)	점수 (Score)	P/P/F	비용 (Cost)	시간 (Time)	카테고리 (Category)
🥇	Grok 4.3	81.6%	7/3/0	$0.017	39.9s	유료 (xAI)
...

주요 헤드라인 (The Headlines)

Grok 4.3 (81.6%, $0.017, 39.9s) — Grok의 최신 릴리스는 치명적인 실패 없이 이번 배치를 장악했습니다. 7번의 깔끔한 통과(clean passes), 3번의 부분적 통과(partials)를 기록했습니다. Process-monitor는 Grok 4.3의 경쟁자들이 놓친 유일한 완전 통과(full pass) 항목이었습니다. xAI의 Grok 라인업은 조용히 일관성을 유지하고 있습니다 — 4.1 Fast (76.7%), 4.20 (75%), 그리고 이제 4.3 (81.6%)까지 — 모두 프리미엄 가격대로 진입하지 않으면서도 80% 이상의 클럽을 위협할 수 있는 거리 내에 있습니다.

Perceptron Mk1 (79.9%, $0.002, 29.3s) — 새로운 제품군이 거의 80%에 육박하는 성능으로 데뷔했습니다. 0.2센트라는 비용으로 이번 배치에서 가장 많은 8번의 통과를 기록했습니다. 단 한 번의 실패(17%에서 발생한 regex-extract)는 소형 모델(small models)의 알려진 약점입니다. 이 통과 대비 가격 비율(price-to-pass ratio)을 고려할 때, Perceptron Mk1은 이번 배치의 가성비 모델입니다.

Owl Alpha (무료, 76.7%, 83.0s) — 치명적인 실패가 없고 5번의 완전 통과를 기록한 무료 모델입니다. 이는 눈에 띄는 무료 티어 결과입니다. 일부 작업에서 유료 모델보다 2배 더 긴 시간(csv-stats에서 24초, 다른 필드에서는 1~3초)이 소요되지만, 코드는 기능적으로 작동합니다. 지연 시간(latency)이 결정적이지 않다면 사용 가능합니다.

무료 티어 로또 (The Free Tier Lottery)

4개의 무료 모델. 결과:

모델	점수	판정
Owl Alpha	76.7%	사용 가능 (Usable) — 치명적인 실패(hard fails) 없음, 10개 중 5개 완전 통과. 느리지만 기능적임.
...

399-400 출력 토큰(output tokens)이라는 무료 티어의 제한이 진짜 문제입니다. Laguna M.1 및 CoBuddy와 같은 모델은 모든 응답을 잘라버리며(truncate), 부분적인 정답이 될 수 있었던 것을 실패로 만듭니다. Owl Alpha는 출력 내용이 제한 범위 내에 들어갈 만큼 간결하기 때문에 이 제한에도 불구하고 작동합니다.

Perceptron Mk1에 $0.002를 지불하고 10개 중 8개를 통과시키거나, Laguna M.1을 무료로 사용하여 10개 중 1개만 통과시키십시오. 계산은 명확합니다.

실망스러운 결과 (Disappointments)

GPT Chat Latest (73.3%, $0.043) — OpenAI의 범용 엔드포인트(catch-all endpoint)는 쉬운 작업(파일 파싱(file-parse), CSV 통계(csv-stats), SQL 쿼리(sql-query) 모두 통과)에서는 견고했으나, 버그 수정(fix-bug) 작업(0%)에서는 길고 비용이 많이 드는 환각(hallucination)을 일으키며 무너졌습니다. 이번 배치에서 가장 비싼 모델임에도 75%를 넘기지 못했습니다.

Mistral Medium 3.5 (71.6%, $0.008) — 총 12.6초로 이번 배치에서 가장 빠른 모델이었으나, 프로세스 모니터(process-monitor) 작업에서 504 게이트웨이 타임아웃(504 Gateway Timeout)이 발생하여 0점을 기록했습니다. 다른 면에서 강력해 보이는 모델에서 발생한 타임아웃 실패는 불균형적으로 큰 페널티를 부여합니다. 이것이 없었다면 Medium 3.5는 79.5%를 기록했을 것입니다.

Laguna M.1 (10%) — 제가 실행한 모든 배치 중 최악의 점수입니다. 작업 응답 중 7개가 400토큰 출력 제한에 걸려 빈 값으로 채워졌습니다. OpenRouter에 목록으로 올릴 가치조차 없습니다.

가격 대비 성능 (Price/Performance)

모델	점수	비용	$/%-pt
Owl Alpha (무료)	76.7%	$0	$0
...

정의상 무료 모델들이 $/%-pt 표를 점령하지만, 실제로 사용 가능한 것은 Owl Alpha뿐입니다. 유료 모델 중에서는 $0.0024/%-pt를 기록한 Perceptron Mk1이 효율성 승자입니다. GPT Chat Latest보다 포인트당 24배 더 저렴합니다.

나의 선택 (My Picks)

종합 베스트 (Best overall): Grok 4.3 — 81.6%, 39.9초, $0.017. 이번 배치에서 가장 깔끔한 리더보드 (leaderboard) 성적을 보여줌.
가성비 베스트 (유료) (Best value (paid)): Perceptron Mk1 — 79.9%, 총 $0.002. 0.2센트도 안 되는 비용으로 8회 통과.
최고의 무료 모델 (Best free model): Owl Alpha — 76.7%, 치명적 실패 (hard fails) 없음. 내가 프로덕션 (production) 환경에 배포할 유일한 무료 모델.
가장 빠른 모델 (Fastest): Mistral Medium 3.5 — 10개 작업 모두 12.6초 소요
완전 제외 (Skip entirely): Laguna M.1 및 모든 Laguna 무료 티어 (free-tier) 변체들. 10%의 점수로는 테스트 자체가 불가능함.

방법론 (Methodology)

이전 배치와 동일한 설정: 파일 작업 (file operations), 셸 명령 (shell commands), 오류 복구 (error recovery), 데이터 파싱 (data parsing), SQL 쿼리 (SQL queries) 등 10개의 실제 에이전트 코딩 작업 — OpenRouter를 통해 테스트됨. 최대 토큰 (Max tokens): 400. 온도 (Temperature): 0.1. 예상 출력값에 대한 패턴 매칭 (Pattern-matching) 점수 산정.

사전 검증 (Pre-flight verification) 결과 이번 배치에서는 실패가 없었음. 총 비용: $0.10. 총 데이터셋: 클라우드 및 로컬을 통틀어 168개 모델 테스트 완료.

전체 결과 및 작업별 점수: benchmarks.workswithagents.dev