Senior SWE-Bench: 에이전트를 시니어 엔지니어로서 평가하는 오픈 소스 벤치마크
요약
에이전트를 시니어 엔지니어 수준으로 평가하기 위해 설계된 새로운 오픈 소스 벤치마크인 Senior SWE-Bench를 소개합니다. 자연어 기반의 모호한 지시사항과 복잡한 런타임 조사가 필요한 버그 해결 능력을 측정하며, 기존 모델들의 한계를 보여줍니다.
핵심 포인트
- 시니어 엔지니어의 업무 방식인 모호한 요구사항 처리 및 런타임 조사 능력 평가
- 전문가 설계 레시피 기반의 검증 에이전트를 통한 솔루션 검증
- 코드베이스 관행 및 런타임 정확성을 결합한 품질 지표 도입
- 프론티어 모델들도 시니어 수준의 과업 완수에는 어려움을 겪음
Senior SWE-Bench
우리는 에이전트를 시니어 엔지니어처럼 대우하는데, 왜 평가는 주니어 엔지니어처럼 하나요?
시니어 엔지니어는 과도하게 상세한 요구사항 없이도 기능을 구축합니다
Senior SWE-Bench의 기능(feature) 태스크는 과도하게 상세한 요구사항(over-specified requirements)이라기보다 자연어 메시지처럼 읽히는 현실적인 지침을 제공합니다. 이러한 태스크를 신뢰성 있게 평가하기 위해, 우리는 제출된 솔루션에 적응하여 행동 테스트(behavioral tests)를 작성하는 전문가 설계 레시피(expert-designed recipes) 기반의 검증 에이전트(validation agent)를 도입합니다.
시니어 엔지니어는 행동 보고서로부터 런타임 조사가 필요한 버그를 해결합니다
Senior SWE-Bench의 버그(bug) 태스크는 까다로운 사용자 보고를 반영하며, 서비스 시작부터 미묘한 런타임(runtime) 문제 디버깅에 이르기까지 조사(investigation)에 집중합니다. 이 태스크들은 해결을 위해 상당한 런타임 조사(예: 로그, 프로파일링 데이터, 재현 단계)가 필요했던 PR(Pull Requests)에서 가져왔습니다.
시니어 엔지니어는 지시받지 않아도 올바른 코드를 배포합니다
Senior SWE-Bench는 런타임 정확성 테스트(runtime correctness tests)와 관찰된 코드베이스 관행(codebase practices)에 기반한 여러 품질 지표를 결합하여 수준 높은 해결책(tasteful solves)을 점수화합니다. 또한, 검증기(verifiers)와 검증(validation) 프로세스는 지침에 명시되지 않은, 코드베이스의 핵심적인 관행(load-bearing codebase practices)을 기준으로 테스트할 수 있습니다.
리더보드 (Leaderboard)
- 1Claude Opus 4.8Mini-SWE-Agent · max24.0%
- Claude Sonnet 5Mini-SWE-Agent · max19.4%
- 2GPT-5.5Mini-SWE-Agent · xhigh16.0%
- 3Claude Opus 4.7Mini-SWE-Agent · max14.1%
- 4GPT-5.4Mini-SWE-Agent · xhigh14.0%
- 5GLM-5.2Mini-SWE-Agent · max12.5%
- 6Kimi K2.6Mini-SWE-Agent · default8.2%
- 7Claude Sonnet 4.6Mini-SWE-Agent · high8.2%
- 8Gemini 3.1 ProMini-SWE-Agent · high6.1%
- 9Gemini 3.5 FlashMini-SWE-Agent · medium3.0%
| # | 모델 (Model) | 노력 (Effort) | 해결률 (Solve rate (pass@1)) |
|---|---|---|---|
| 1 | max | 24.0% | |
| ... |
최상위 성능을 보이는 프론티어 모델(frontier models)들도 75% 이상의 경우에서 시니어 수준의 정확성과 안목(taste)을 갖춘 태스크 완수에 실패합니다.
태스크 (Tasks)
Senior SWE-Bench 태스크는 라이브러리부터 멀티 서비스 애플리케이션(multi-service applications)에 이르는 다양한 리포지토리의 PR(Pull Requests)에서 가져왔으며, 각 리포지토리에서 수백 개의 커밋을 수행한 엔지니어들이 작성한 것입니다. 우리는 다단계(multi-phase), 다중 스택(multi-stack) 기능 PR 및 상당한 런타임 조사(runtime investigation)가 필요한 버그/성능 관련 PR에 집중합니다. 태스크 설계에 대한 자세한 내용은 블로그 포스트를 읽어보세요.
더 자연스럽고 불충분하게 명시된 지시사항 (More naturally under-specified instructions)
Senior SWE-Bench 태스크는 에이전트와의 자연스러운 소통을 반영하며, 지시사항 길이의 중앙값(median)은 SWE-Bench Pro의 31% 수준입니다.
더 다양한 태스크 범위 (More diverse task scope)
Senior SWE-Bench 기능 태스크는 여러 서비스에 걸쳐 있을 수 있으며, 기능 태스크당 평균 11개의 파일이 수정됩니다.
더 긴 태스크 호라이즌 (Longer task horizon)
Senior SWE-Bench 태스크는 롱 호라이즌(long-horizon)으로 설계되어, 가장 강력한 에이전트에게도 수백 단계의 과정이 필요합니다.
더 자연스럽고 불충분하게 명시된 지시사항 (More naturally under-specified instructions)
Senior SWE-Bench 태스크는 에이전트와의 자연스러운 소통을 반영하며, 지시사항 길이의 중앙값(median)은 SWE-Bench Pro의 31% 수준입니다.
더 다양한 태스크 범위 (More diverse task scope)
Senior SWE-Bench 기능 태스크는 여러 서비스에 걸쳐 있을 수 있으며, 기능 태스크당 평균 11개의 파일이 수정됩니다.
더 긴 태스크 호라이즌 (Longer task horizon)
Senior SWE-Bench 태스크는 롱 호라이즌(long-horizon)으로 설계되어, 가장 강력한 에이전트에게도 수백 단계의 과정이 필요합니다.
참조 솔루션(Reference-solution)의 SLOC(Source Lines of Code) 및 파일 수는 세 가지 벤치마크 모두에서 동일하게 측정됩니다. 지시사항 길이는 하네스(harness)의 보일러플레이트(boilerplate)를 제외합니다. 다른 벤치마크의 토큰 및 단계(step) 수는 해당 벤치마크가 자체적으로 보고한 지표를 기반으로 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기