성능 최적화 벤치마크는 코딩 에이전트(Coding Agents)를 신뢰성 있게 측정하고 있는가?

GSO, SWE-Perf, SWE-fficiency와 같은 저장소 수준(Repository-level)의 성능 최적화 벤치마크는 실제 저장소에 패치(patch)를 적용하고, 최적화되지 않은 베이스라인(baselines) 및 공식 참조 패치(official reference patches)와 실행 시간(runtime)을 비교함으로써 코딩 에이전트(coding agents)를 평가합니다. 이들의 리더보드 점수는 코딩 에이전트의 발전 증거로 점점 더 많이 사용되고 있지만, 해당 점수들은 실행 시간의 불안정성, 벤치마크 특유의 채점 규칙, 그리고 이미 최소 하나 이상의 공개 제출물(public submission)에 의해 해결된 작업의 수 등을 혼동할 수 있습니다. 우리는 이 세 가지 벤치마크 전반에 걸쳐 이러한 문제들을 감사(audit)합니다. 첫째, 우리는 네 가지 일반적인 유형의 Google Cloud 머신에서 740개의 코드 최적화 작업에 대해 공식 참조 패치를 재실행(replay)합니다. 대부분의 벤치마크 작업은 재실행이 가능하지만, 머신 간 재실행 시 원래의 벤치마크 유효성 규칙을 충족하는 참조 패치는 GSO 작업의 39/102개, SWE-Perf 작업의 11/140개, 그리고 SWE-fficiency 작업의 411/498개에 불과했습니다. 특히 SWE-Perf는 많은 참조 패치가 실행 시간 변화를 거의 제로(zero)에 가깝게 생성하기 때문에 매우 취약합니다. 둘째, 우리는 공개 제출물 순위가 벤치마크 채점 규칙에 크게 의존한다는 것을 보여줍니다. GSO와 SWE-fficiency가 공유한 8개의 공개 제출물 중에서, 공식 순위는 28개의 제출물 쌍 비교 중 9개에서 서로 일치하지 않았으며, SWE-fficiency의 리더보드 채점 규칙은 가장 어려운 10개 작업에 58.5%~82.8%라는 과도하게 높은 점수 가중치를 부여합니다. 셋째, 각 작업에 대한 10개의 공개 제출물을 살펴본 결과, 재실행 유효성이 있는 GSO 및 SWE-fficiency 작업의 85.3%(384/450)에서 최소 하나의 제출물이 참조 패치와 일치하거나 이를 능가하며, 99.8%(449/450)에서는 최적화되지 않은 베이스 코드(base code)를 능가한다는 것을 발견했습니다. 우리의 연구는 더 신뢰할 수 있는 성능 신호를 가진 작업을 식별하고, 작업별 점수 기여도를 정량화하며, 집계된 순위(aggregate rankings)에 의해 숨겨진 잔여 성능 격차를 드러냄으로써 리더보드 점수를 보완합니다.

Insights

성능 최적화 벤치마크는 코딩 에이전트(Coding Agents)를 신뢰성 있게 측정하고 있는가?

요약

핵심 포인트

댓글

UI가 AI로 생성된 것처럼 보이게 만드는 모든 특징을 기록했습니다. 제가 만든 도구조차 테스트를 통과하지 못했습니다.

Cloudflare의 새로운 AI 크롤러 제어 기능: 가시성을 액세스 정책 결정으로 전환하다

Seed Audio 1.0: ByteDance가 출시한 차세대 AI 오디오 생성 모델

SenseNova-U1-8b-MoT-Infographic-V2 출시 - 인포그래픽 디자인 및 이미지 편집을 위한 오픈 소스 SOTA 모델

Cloudflare의 새로운 AI 크롤러 제어 기능: 가시성을 액세스 정책 결정으로 전환하다

Seed Audio 1.0: ByteDance가 출시한 차세대 AI 오디오 생성 모델

SenseNova-U1-8b-MoT-Infographic-V2 출시 - 인포그래픽 디자인 및 이미지 편집을 위한 오픈 소스 SOTA 모델