Dev.to헤드라인2026. 05. 07. 10:43

우리가 실제로 필요로 하는 코딩 벤치마크

요약

현재 코딩 에이전트 벤치마크들은 '고객이 지불할 만한 가치'를 측정하는 데 실패하고 있으며, 대신 적대적 제약 조건 하에서의 기억력이나 역공학 능력을 테스트하는 경향이 있습니다. 필자는 ProgramBench와 같은 기존의 엄격한 벤치마크가 실제 엔지니어링 워크플로우(웹 접근, 디버거 사용 등)를 배제하여 모델의 실질적인 가치를 측정하지 못한다고 비판합니다. 따라서 코딩 에이전트 평가는 '장기적 일관성'과 '실제 수익 창출 능력'에 초점을 맞춰야 하며, Vending-Bench와 같은 시뮬레이션 기반 접근 방식을 채택하여 에이전트가 실제 시장 환경에서 SaaS 앱을 출시하고 운영하며 ARR(연간 반복 매출)로 점수화되는 방식으로 진화해야 한다고 제안합니다.

핵심 포인트

코딩 에이전트 벤치마크는 '실제 수익 창출 가능성'에 초점을 맞춰야 하며, 단순한 기술적 역공학 능력을 측정해서는 안 된다.
기존의 엄격한 벤치마크(예: ProgramBench)는 웹 접근이나 디버거 사용 등 실제 엔지니어링 워크플로우를 금지하여 모델의 실질적인 가치를 과소평가한다.
이상적인 평가는 장기간에 걸친 '장기적 일관성(long-horizon coherence)'을 측정하는 시뮬레이션 기반이어야 한다.
제안된 새로운 벤치마크는 에이전트에게 시장 가설과 실제 도구를 제공하고, SaaS 앱 출시 및 운영 후 생성되는 ARR(연간 반복 매출)로 점수화해야 한다.

관심 갖는 벤치마크는 고객이 지불할 만한 가치를 측정해야 합니다. "이 에이전트가 수익을 창출하는 제품을 출시할 수 있는가"를 묻는 것이 중요합니다. "이 에이전트가 적대적 제약 조건 하에서 메모리에서 SQLite 를 복제할 수 있는가"는 아닙니다. 앞으로 코딩 에이전트를 평가하는 렌즈는 고객들이 지불할 만한 가치를 측정하는 것입니다. ProgramBench[1] 는 이를 지탱할 데를 제공하는 유용한 곳입니다. 왜냐하면 그것은 전파될 가치가 있는 핵심 한 가지를 올바르게 처리하고, 다른 설계 부분은 비판적으로 검토해야 하기 때문입니다. 설정: 코딩 에이전트에게 컴파일된 바이너리, 사용자용 문서, 샌드박스를 주십시오. 프로그램을 처음부터 재구성하십시오. 모든 행동 테스트를 통과하십시오. 웹 접근 없음. objdump, strings, hexdump 없음. 소스 코드 없음. 200 가지 작업과 248,000 개의 행동 테스트에서, 모든 프론티어 모델은 완전히 해결되지 않은 점수가 0% 였습니다[1]. 작업은 작은 끝의 jq 에서부터 SQLite, PHP, FFmpeg 의 큰 끝까지 다양합니다. Claude Opus 4.7 은 "거의 해결" 열에서 3.0% 로 선두를 차지합니다. GPT-5.4, Gemini 3.1 Pro, Haiku 4.5 는 모두 0/0 입니다. 프레밍은 이것이 어려운 역공학 테스트라고 하지만, 실제로는 기억을 측정하는 것입니다. 그리고 그것은 테스트할べき가 아닙니다. ProgramBench 가 왜 기억을 측정하고 능력 대신에? 실제 역공학은 완전하게 이해하지 못한 것을 재구성하기 위해 모든 개발자가 사용하는 워크플로우와 같습니다: 제품을 만져보며 어떻게 작동하는지 확인, 문서 읽기, 유사 프로젝트 검색, 참조 구현 및 디자인 시스템 예제 가져오기, 반만 기억된 오류 문자열 찾기, 행동이 왜 변했는지 파악하기 위해 업스트림 변경 로그 읽기. ProgramBench 의 규칙은 모두 이를 금지합니다. 에이전트는 실행할 수 있는 바이너리와 읽을 수 있는 매뉴얼만 줍니다. 그것이 전부입니다. 그 도구들을 제거하면 남는 것은: 훈련 데이터만으로, 25 만 개의 테스트에서 참조와 일치하는 FFmpeg 의 클린룸 구현을 생성하는 것입니다. 모델은 사전 학습 동안 원래 코드베이스를 얼마나 많이 보았는지 기억하고 있는지, 우리가 실제로 알고 싶은 것은 바이너리에 대해 추론할 수 있는가입니다. 이 작업에 잘 수행되면 모델이 훈련 세트를 기억했음을 우리에게 알려주며, 이는 우리가 측정하려는 것이 아닙니다. 나쁘게 수행하면 현재 프론티어 모델이 SQLite 를 완벽하게 기억할 수 없다는 것을 알려주며, 우리는 이미 알고 있습니다. 벤치마크 작성자들은 그것이 목적이라고 말할 것입니다: 명백한 도구를 금지하여 모델이 사기하지 못하게 하십시오. 그러나 여기서 "사기"는 "실제 엔지니어가 사용하는 워크플로우를 사용"하는 것을 의미합니다. 제약은 테스트를 더 깨끗하게 등급을 매기기 위해 만들지만, 고객들이 지불할 만한 가치를 측정하는 것을 방지합니다. 보존해야 할 한 부분: 자유형 구현 ProgramBench 는 올바른 한 가지를 얻고, 그것은 더 나은 벤치마크로 전파할 가치가 있는 부분을 지적해야 합니다. 입력 형식. 메서드 서명 채우기 없음. 클래스 스키넬 없음. PRD 없음. 의도된 파일 레이아웃의 자연어 설명 없음. 단지: 여기 바이너리, 여기 매뉴얼, 그 것을 빌드하십시오. 이것이 중요합니다. 대부분의 코딩 벤치마크는 등급을 가능하게 하기 위해 부분적인 구조에 의존합니다. SWE-Bench[2] 는 리포지토리 및 실패 테스트를 줍니다. HumanEval 은 문서 문자열 및 함수 서명을 줍니다. 심지어 더 어려운 에이전트 벤치마크도 인간이 이미 분해한 문제 진술을 전달합니다. ProgramBench 는 모델을 0 에서부터 설계하게 하는 드문 벤치마크입니다. 자유형 입력은 올바른 아이디어입니다. 나머지 설계는 아닙니다. 제안: 자유형 입력, 실제 결과, 실제 도구 여기에는 재설계

n. ProgramBench 의 자유형 입력 유지. 도구 금지 규칙 폐기. 고객들이 실제로 지불할 의사를 가진 지표로 테스트 통과율 대신 대체. Vending-Bench 2[3] 를 채택하세요: 에이전트가 $500 으로 시작해 연중 운영되는 자동판매기 사업을 실행하고, 공급업체와 협상하며 재고를 관리하며, 연말 은행 잔액으로 점수를 받는 장기 시뮬레이션입니다. Andon Labs 는 이를 수천 개의 도구 호출에서 에이전트의 이탈, 망각, 파산이라는 장기적 일관성 (long-horizon coherence) 실패 모드를 측정하기 위해 명시적으로 설계했습니다. 이제 Vending-Bench 의 결과 기반 점수 시스템을 ProgramBench 의 자유형 입력과 SWE-Bench 의 실제 소프트웨어 프레임워크와 결합하세요. 에이전트를 빈 리포지토리에 투입하고, 웹, 패키지 관리자, 디버거 등 실제 엔지니어들이 사용하는 도구를 포함한 시장 가설을 부여하세요. 에이전트가 SaaS 앱을 출시하게 하세요. 90 일의 시뮬레이션 운영 후 생성된 ARR(연간 수익) 으로 점수화하며, 에이전트가 구축한 것에 대해 구매, 이탈 (churn), 지원 티켓 제출하는 합성 고객 풀을 활용하세요. 이 벤치마크는 코딩 에이전트가 실제로 무엇을 위한 것인지 테스트할 것입니다: 실제 환경에서 실제 엔지니어들이 사용하는 도구로 작동하는 것들을 구축하고, 고객이 지불할 의사를 가진 결과에 맞습니다. 기억력은 조금만 도움이 됩니다. 아키텍처, 디버깅, 고객 공감대, 장기적 실행이 훨씬 더 도움이 됩니다. 그리고 결정적으로, 점수는 우리가 실제로 원하는 GDP(국내총생산) 가치 생성과 함께 움직이며, 모델이 전训练中 이미 훈련 데이터셋을 얼마나 보았는지는 아닙니다. 0% 가 무엇을 의미하는지 ProgramBench 의 헤드라인 숫자는 벤치마크 설계 선택입니다. 웹 접근 금지, 디컴파일링 금지, 소스 코드 금지하고, 당신은 워크플로우를 금지한 것입니다. 나머지 테스트는 적대적 제약 조건 하의 회상 (recall) 을 측정하며, 이는 흥미로운 연구이지만 생산 라우팅 결정에 유용한 신호가 아니며, 고객이 지불할 의사를 가진 가치 측정이 아닙니다. 에이전트를 실제로 배포된 환경에서 실행하세요. 고객이 관심 있는 결과로 점수화하세요. 다음 2 년 동안 생존하는 벤치마크는 ProgramBench 보다 Vending-Bench 처럼 보일 것입니다. 이들은 장기적이며, 도구 풍부하며, 입력 측면에서는 자유형이고, 테스트 통과율 대신 수익으로 평가됩니다. 자유형 입력 아이디어는 유지 가치가 있습니다. 결과 기반 점수 시스템과 결합하면 우리가 실제로 필요한 벤치마크를 얻습니다. 참고문헌 [1] ProgramBench,

AI 자동 생성 콘텐츠

원문 바로가기

우리가 실제로 필요로 하는 코딩 벤치마크

요약

핵심 포인트

댓글