코딩 에이전트가 Frontier 모델과 대등한 성능을 내면서 비용은 8배나 적게 들게 만들었습니다. 솔직한 벤치마크 결과를 공개합니다.

저는 1인 창업자입니다. 연구실이나 연구팀도 없습니다. 매달 지불해야 하는 청구서가 있고, 이를 위해 일구어 나가는 가족이 있으며, 직접 측정하기 전까지는 숫자를 믿지 않는 고집스러운 습관이 있습니다.

제가 사용하던 AI 코딩 에이전트(AI coding agents)에서 두 가지가 거슬렸습니다. 첫 번째는 비용이었습니다. 요청이 쉽든 어렵든 모든 요청이 사용 가능한 가장 비싼 모델로 전송되었습니다. 두 번째는 좀 더 조용한 문제였는데, 에이전트가 코드를 작성할 때 제 코드가 실제로 어디로 가고 있는지 정확히 알 수 없었다는 점입니다.

그래서 저는 이 두 가지를 모두 해결하기 위해 무언가를 만들었고, 미화된 숫자보다는 솔직한 숫자를 말씀드리고 싶기에 신중하게 측정했습니다. 미화되지 않은 부분들을 포함하여 제가 발견한 결과는 다음과 같습니다.

아이디어. 대부분의 코딩 요청은 어렵지 않습니다. 더 저렴하거나 로컬 모델(local model)로도 충분히 처리할 수 있습니다. 오직 아주 적은 부분만이 진정으로 Frontier 모델을 필요로 합니다. 따라서 모든 것에 Frontier 가격을 지불하는 대신, 시스템이 각 요청을 실제로 작업을 수행할 수 있는 가장 저렴한 모델로 라우팅(routing)하고, 결과를 확인한 뒤, 확인에 실패할 경우에만 Frontier 모델로 에스컬레이션(escalate)합니다. 검증된 답변은 캐싱(cached)되어 이전에 수행한 작업이 빠르게 돌아옵니다. 라우터(Router), 검증기(verifier), Frontier 백스톱(backstop), 캐시(cache). 엔지니어링 세부 사항은 비밀로 하겠지만, 아이디어 자체가 어려운 부분은 아닙니다. 그것을 솔직하게 측정하는 것이 어려운 부분입니다.

수치. 모든 모델에 대해 동일한 벤치마크(benchmark)와 동일한 하네스(harness)를 사용했습니다. HumanEval+, 164개 문제.

Bar chart of HumanEval+ scores: my system 94.5 percent, Opus 4.8 at 93.3, Sonnet 4.6 at 92.7, GPT-5.3-codex at 90.2, and the cheap model alone at 84.8. My system ties the frontier models.

단어 선택에 신중을 기하고 싶습니다. 이는 매우 중요하기 때문입니다. 이것은 동등함(parity)을 의미합니다. Frontier 모델들과 어깨를 나란히 하는 수준이지, 그들을 능가하는 것이 아닙니다. 저렴한 설정이 정확도 면에서 Frontier 모델을 이긴다고 말하는 사람은 측정 방식이 잘못되었거나 무언가를 팔려고 하는 사람입니다. 제가 주장하는 바는 더 좁고 유용한 범위입니다. 즉, 모든 요청에 대해 Frontier 모델의 비용을 지불하지 않고도 Frontier 모델과 동일한 정확도 대역(accuracy band)에 도달할 수 있다는 것입니다. 저렴한 모델 단독으로는 84.8%였습니다. 라우팅(routing)과 검증(verification)이 그 격차를 줄여 94.5%로 만들었습니다.

실제 핵심인 비용에 대해 말씀드리겠습니다. 실제 사용 로그에서 추출한 313개의 프로덕션 요청을 통해 측정했습니다. 혼합 비용(Blended cost)은 요청당 약 $0.002로 나타났으며, 이는 Frontier 모델의 약 $0.017와 비교됩니다. 동일한 정확도 대역에서 작업할 때 대략 8배 더 저렴합니다. 해당 실행에서 요청의 96%가 저렴한 티어(cheap tier)에서 처리되었고, 약 3.7%가 상위 모델로 에스컬레이션(escalated)되었습니다.

제가 예상하지 못했던 두 번째 이점도 있습니다. 검증된 답변은 캐싱(cached)되며, 캐시 히트(cache hit) 시 약 0.16초 만에 반환됩니다. 이는 제 테스트 결과 새로 문제를 해결하는 것보다 24배에서 185배 더 빨랐습니다. 코딩을 더 많이 할수록, 작업의 더 많은 부분이 즉각적으로 처리됩니다. 솔직히 말씀드리면, 이는 실제 사용 환경에서 복리 효과를 일으키며, 저는 아직 초기 단계이므로 과장하지 않고 지켜보고 있습니다.

취약한 부분 (신뢰하기 전에 반드시 알아야 할 점):

가장 어려운 문제들은 여전히 Frontier 모델로 에스컬레이션됩니다. 이는 설계 의도입니다. 어렵고 다단계인 문제에서는 더 많은 문제가 에스컬레이션되기 때문에 절감 효과가 줄어듭니다. 저렴한 모델이 마법처럼 Frontier 모델의 작업을 수행하는 것이 아닙니다. 각 작업에 적합한 모델을 사용하되, 안전장치(backstop)를 두는 것입니다.
HumanEval+는 벤치마크일 뿐입니다. 실제 세계의 코드는 더 복잡하며, 저는 벤치마크가 모든 것을 해결해 주는 것처럼 가장하기보다 그 부분을 여전히 정직하게 측정하고 있습니다.
검증기(verifier)의 성능은 실행되는 체크(checks)의 품질에 달려 있습니다. 약한 테스트를 제공하면 게이트(gate)도 약해집니다.

개인정보 보호 측면입니다. 제가 이것을 만든 또 다른 이유는 여러분의 코드가 여러분의 머신을 조용히 떠나서는 안 되기 때문입니다. 따라서 이것은 여러분이 제어하는 인프라 위에서 실행되며, 테넌트(tenant)별로 격리되고, 작업이 끝나면 삭제됩니다. 이것은 나중에 덧붙이는 기능이 아닙니다. 이것이 제가 시작한 이유입니다.

현재 상황입니다. 첫 번째 테스터 그룹에게 공개하려고 합니다. 정확도 면에서 Frontier 모델과 대등하면서도 더 저렴하고 프라이빗한 코딩 에이전트가 여러분에게 유용하다면, 저는 진심으로 여러분이 이를 압박 테스트(pressure-testing)하여 도와주시기를 바랍니다. 수치가 제대로 맞지 않는 부분이 있다면 저에게 알려주세요. 더 많은 사람이 실행함에 따라 (결과가 좋지 않은 경우를 포함하여) 계속해서 결과를 공개하겠습니다. 정직함이야말로 여러분이 한 번도 만난 적 없는 사람의 수치를 신뢰할 수 있는 유일한 이유이기 때문입니다.

읽어주셔서 감사합니다. 방법론에 대해 질문이 있다면 물어봐 주세요. 저는 항상 대기 중입니다.

Insights

코딩 에이전트가 Frontier 모델과 대등한 성능을 내면서 비용은 8배나 적게 들게 만들었습니다. 솔직한 벤치마크 결과를 공개합니다.

요약

핵심 포인트

댓글

사모펀드가 프랜차이즈에 수십억 달러를 쏟아붓고 있다. 많은 이들이 값비싼 사각지대를 발견하고 있다.

트럼프 관세 공포로 인해 소매업체들의 재고 확보 경쟁이 치열해지며 중국발 연말 연휴 물동량 조기 급증: 보고서

칩메이커 약세와 미국 물가 압력 완화로 인한 혼조세 양상의 주식 시장

FedEx, 공급망 부문을 CMA CGM에 14억 달러에 매각

트럼프 관세 공포로 인해 소매업체들의 재고 확보 경쟁이 치열해지며 중국발 연말 연휴 물동량 조기 급증: 보고서

칩메이커 약세와 미국 물가 압력 완화로 인한 혼조세 양상의 주식 시장

FedEx, 공급망 부문을 CMA CGM에 14억 달러에 매각