성능 최적화 벤치마크는 코딩 에이전트(Coding Agents)를 신뢰성 있게 측정하고 있는가?
요약
GSO, SWE-Perf, SWE-fficiency 등 코딩 에이전트 성능 측정 벤치마크의 신뢰성을 감사한 연구입니다. 실행 시간의 불안정성, 채점 규칙의 편향성, 공개 제출물에 의한 데이터 오염 문제를 지적하며 리더보드 점수의 한계를 분석합니다.
핵심 포인트
- 벤치마크 참조 패치의 머신 간 재실행 유효성이 매우 낮음
- 채점 규칙의 설계에 따라 리더보드 순위가 크게 왜곡됨
- 대부분의 작업에서 이미 공개 제출물이 참조 패치 성능을 상회함
- 신뢰할 수 있는 성능 신호를 식별하기 위한 보완책 필요
GSO, SWE-Perf, SWE-fficiency와 같은 저장소 수준(Repository-level)의 성능 최적화 벤치마크는 실제 저장소에 패치(patch)를 적용하고, 최적화되지 않은 베이스라인(baselines) 및 공식 참조 패치(official reference patches)와 실행 시간(runtime)을 비교함으로써 코딩 에이전트(coding agents)를 평가합니다. 이들의 리더보드 점수는 코딩 에이전트의 발전 증거로 점점 더 많이 사용되고 있지만, 해당 점수들은 실행 시간의 불안정성, 벤치마크 특유의 채점 규칙, 그리고 이미 최소 하나 이상의 공개 제출물(public submission)에 의해 해결된 작업의 수 등을 혼동할 수 있습니다. 우리는 이 세 가지 벤치마크 전반에 걸쳐 이러한 문제들을 감사(audit)합니다. 첫째, 우리는 네 가지 일반적인 유형의 Google Cloud 머신에서 740개의 코드 최적화 작업에 대해 공식 참조 패치를 재실행(replay)합니다. 대부분의 벤치마크 작업은 재실행이 가능하지만, 머신 간 재실행 시 원래의 벤치마크 유효성 규칙을 충족하는 참조 패치는 GSO 작업의 39/102개, SWE-Perf 작업의 11/140개, 그리고 SWE-fficiency 작업의 411/498개에 불과했습니다. 특히 SWE-Perf는 많은 참조 패치가 실행 시간 변화를 거의 제로(zero)에 가깝게 생성하기 때문에 매우 취약합니다. 둘째, 우리는 공개 제출물 순위가 벤치마크 채점 규칙에 크게 의존한다는 것을 보여줍니다. GSO와 SWE-fficiency가 공유한 8개의 공개 제출물 중에서, 공식 순위는 28개의 제출물 쌍 비교 중 9개에서 서로 일치하지 않았으며, SWE-fficiency의 리더보드 채점 규칙은 가장 어려운 10개 작업에 58.5%~82.8%라는 과도하게 높은 점수 가중치를 부여합니다. 셋째, 각 작업에 대한 10개의 공개 제출물을 살펴본 결과, 재실행 유효성이 있는 GSO 및 SWE-fficiency 작업의 85.3%(384/450)에서 최소 하나의 제출물이 참조 패치와 일치하거나 이를 능가하며, 99.8%(449/450)에서는 최적화되지 않은 베이스 코드(base code)를 능가한다는 것을 발견했습니다. 우리의 연구는 더 신뢰할 수 있는 성능 신호를 가진 작업을 식별하고, 작업별 점수 기여도를 정량화하며, 집계된 순위(aggregate rankings)에 의해 숨겨진 잔여 성능 격차를 드러냄으로써 리더보드 점수를 보완합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기