
코딩 에이전트가 Frontier 모델과 대등한 성능을 내면서 비용은 8배나 적게 들게 만들었습니다. 솔직한 벤치마크 결과를 공개합니다.
요약
모든 요청에 고비용 Frontier 모델을 사용하는 대신, 작업 난이도에 따라 저렴한 모델로 라우팅하고 검증하는 시스템을 구축했습니다. 이를 통해 Frontier 모델과 대등한 성능을 유지하면서도 비용을 8배 절감할 수 있음을 벤치마크로 증명했습니다.
핵심 포인트
- 라우팅, 검증, 백스톱, 캐싱 구조를 통한 비용 최적화
- HumanEval+ 벤치마크에서 Frontier 모델과 유사한 94.5% 성능 달성
- 저렴한 모델 단독 사용 시보다 정확도를 대폭 향상
- 모든 요청에 비싼 모델을 쓸 필요가 없음을 실증
저는 1인 창업자입니다. 연구실이나 연구팀도 없습니다. 매달 지불해야 하는 청구서가 있고, 이를 위해 일구어 나가는 가족이 있으며, 직접 측정하기 전까지는 숫자를 믿지 않는 고집스러운 습관이 있습니다.
제가 사용하던 AI 코딩 에이전트(AI coding agents)에서 두 가지가 거슬렸습니다. 첫 번째는 비용이었습니다. 요청이 쉽든 어렵든 모든 요청이 사용 가능한 가장 비싼 모델로 전송되었습니다. 두 번째는 좀 더 조용한 문제였는데, 에이전트가 코드를 작성할 때 제 코드가 실제로 어디로 가고 있는지 정확히 알 수 없었다는 점입니다.
그래서 저는 이 두 가지를 모두 해결하기 위해 무언가를 만들었고, 미화된 숫자보다는 솔직한 숫자를 말씀드리고 싶기에 신중하게 측정했습니다. 미화되지 않은 부분들을 포함하여 제가 발견한 결과는 다음과 같습니다.
아이디어. 대부분의 코딩 요청은 어렵지 않습니다. 더 저렴하거나 로컬 모델(local model)로도 충분히 처리할 수 있습니다. 오직 아주 적은 부분만이 진정으로 Frontier 모델을 필요로 합니다. 따라서 모든 것에 Frontier 가격을 지불하는 대신, 시스템이 각 요청을 실제로 작업을 수행할 수 있는 가장 저렴한 모델로 라우팅(routing)하고, 결과를 확인한 뒤, 확인에 실패할 경우에만 Frontier 모델로 에스컬레이션(escalate)합니다. 검증된 답변은 캐싱(cached)되어 이전에 수행한 작업이 빠르게 돌아옵니다. 라우터(Router), 검증기(verifier), Frontier 백스톱(backstop), 캐시(cache). 엔지니어링 세부 사항은 비밀로 하겠지만, 아이디어 자체가 어려운 부분은 아닙니다. 그것을 솔직하게 측정하는 것이 어려운 부분입니다.
수치. 모든 모델에 대해 동일한 벤치마크(benchmark)와 동일한 하네스(harness)를 사용했습니다. HumanEval+, 164개 문제.
단어 선택에 신중을 기하고 싶습니다. 이는 매우 중요하기 때문입니다. 이것은 동등함(parity)을 의미합니다. Frontier 모델들과 어깨를 나란히 하는 수준이지, 그들을 능가하는 것이 아닙니다. 저렴한 설정이 정확도 면에서 Frontier 모델을 이긴다고 말하는 사람은 측정 방식이 잘못되었거나 무언가를 팔려고 하는 사람입니다. 제가 주장하는 바는 더 좁고 유용한 범위입니다. 즉, 모든 요청에 대해 Frontier 모델의 비용을 지불하지 않고도 Frontier 모델과 동일한 정확도 대역(accuracy band)에 도달할 수 있다는 것입니다. 저렴한 모델 단독으로는 84.8%였습니다. 라우팅(routing)과 검증(verification)이 그 격차를 줄여 94.5%로 만들었습니다.
실제 핵심인 비용에 대해 말씀드리겠습니다. 실제 사용 로그에서 추출한 313개의 프로덕션 요청을 통해 측정했습니다. 혼합 비용(Blended cost)은 요청당 약 $0.002로 나타났으며, 이는 Frontier 모델의 약 $0.017와 비교됩니다. 동일한 정확도 대역에서 작업할 때 대략 8배 더 저렴합니다. 해당 실행에서 요청의 96%가 저렴한 티어(cheap tier)에서 처리되었고, 약 3.7%가 상위 모델로 에스컬레이션(escalated)되었습니다.
제가 예상하지 못했던 두 번째 이점도 있습니다. 검증된 답변은 캐싱(cached)되며, 캐시 히트(cache hit) 시 약 0.16초 만에 반환됩니다. 이는 제 테스트 결과 새로 문제를 해결하는 것보다 24배에서 185배 더 빨랐습니다. 코딩을 더 많이 할수록, 작업의 더 많은 부분이 즉각적으로 처리됩니다. 솔직히 말씀드리면, 이는 실제 사용 환경에서 복리 효과를 일으키며, 저는 아직 초기 단계이므로 과장하지 않고 지켜보고 있습니다.
취약한 부분 (신뢰하기 전에 반드시 알아야 할 점):
-
가장 어려운 문제들은 여전히 Frontier 모델로 에스컬레이션됩니다. 이는 설계 의도입니다. 어렵고 다단계인 문제에서는 더 많은 문제가 에스컬레이션되기 때문에 절감 효과가 줄어듭니다. 저렴한 모델이 마법처럼 Frontier 모델의 작업을 수행하는 것이 아닙니다. 각 작업에 적합한 모델을 사용하되, 안전장치(backstop)를 두는 것입니다.
-
HumanEval+는 벤치마크일 뿐입니다. 실제 세계의 코드는 더 복잡하며, 저는 벤치마크가 모든 것을 해결해 주는 것처럼 가장하기보다 그 부분을 여전히 정직하게 측정하고 있습니다.
-
검증기(verifier)의 성능은 실행되는 체크(checks)의 품질에 달려 있습니다. 약한 테스트를 제공하면 게이트(gate)도 약해집니다.
개인정보 보호 측면입니다. 제가 이것을 만든 또 다른 이유는 여러분의 코드가 여러분의 머신을 조용히 떠나서는 안 되기 때문입니다. 따라서 이것은 여러분이 제어하는 인프라 위에서 실행되며, 테넌트(tenant)별로 격리되고, 작업이 끝나면 삭제됩니다. 이것은 나중에 덧붙이는 기능이 아닙니다. 이것이 제가 시작한 이유입니다.
현재 상황입니다. 첫 번째 테스터 그룹에게 공개하려고 합니다. 정확도 면에서 Frontier 모델과 대등하면서도 더 저렴하고 프라이빗한 코딩 에이전트가 여러분에게 유용하다면, 저는 진심으로 여러분이 이를 압박 테스트(pressure-testing)하여 도와주시기를 바랍니다. 수치가 제대로 맞지 않는 부분이 있다면 저에게 알려주세요. 더 많은 사람이 실행함에 따라 (결과가 좋지 않은 경우를 포함하여) 계속해서 결과를 공개하겠습니다. 정직함이야말로 여러분이 한 번도 만난 적 없는 사람의 수치를 신뢰할 수 있는 유일한 이유이기 때문입니다.
읽어주셔서 감사합니다. 방법론에 대해 질문이 있다면 물어봐 주세요. 저는 항상 대기 중입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기