arXiv논문2026. 06. 17. 10:44

위치: 코딩 벤치마크는 에이전트 기반 소프트웨어 엔지니어링과 정렬되어 있지 않음

요약

현재의 코딩 벤치마크가 에이전트 기반 소프트웨어 엔지니어링 방식과 일치하지 않는 문제를 지적합니다. 기존 벤치마크는 모델, 환경, 피드백 신호를 통합하여 점수를 매기기 때문에 개별 컴포넌트의 성능을 정확히 측정하기 어렵습니다.

핵심 포인트

기존 벤치마크는 에이전트 이전 시대의 설계로 인해 현재의 에이전트 방식과 불일치함
벤치마크 점수가 모델 성능과 시스템 하네스 요소를 혼동하는 문제 발생
단일 참조 솔루션 기반 채점은 유효한 대안적 해결책에 불이익을 줌
컴포넌트 수준의 신호 부재로 인해 시스템 반복 개선이 어려움

코딩 에이전트(Coding agents)는 소프트웨어 엔지니어링의 주요 방식이 되었지만, 우리가 이들을 비교하기 위해 사용하는 벤치마크(benchmarks)는 에이전트 이전 시대에 설계되었습니다. 이러한 벤치마크들은 모델(model), 하네스(harness), 환경(environment)을 하나의 엔드 투 엔드(end-to-end) 점수로 통합하며, 일반적으로 단일 참조 솔루션(reference solution)을 기준으로 계산되어 반복(iteration)을 위한 컴포넌트 수준의 신호(signal)를 제공하지 않습니다. 우리는 현재의 코딩 벤치마크가 에이전트 기반 소프트웨어 엔지니어링(agentic software engineering)과 정렬되어 있지 않다고 주장합니다. 실제 환경에서의 코딩 에이전트는 모델이 아닙니다. 그것은 모델, 하네스, 컨텍스트(contexts), 환경, 그리고 피드백 신호(feedback signals)의 복합체인 시스템 하네스(system harness)입니다. 이 중 어느 하나라도 인접한 모델 세대 간의 차이에 필적할 만큼 벤치마크 점수를 변화시킬 수 있습니다. 우리는 세 가지 증상을 논의합니다: (i) 벤치마크 점수가 모델과 나머지 하네스를 혼동함; (ii) 단일 참조 솔루션에 기반한 채점은 동일하게 유효한 대안들에 대해 불이익을 줌; (iii) 개별 하네스 컴포넌트 수준에서의 신호 부재로 인해 엔드 투 엔드 시스템 점수를 반복 개선하기 어려움.

AI 자동 생성 콘텐츠

원문 바로가기

위치: 코딩 벤치마크는 에이전트 기반 소프트웨어 엔지니어링과 정렬되어 있지 않음

요약

핵심 포인트

댓글