Senior SWE-Bench: 에이전트를 시니어 엔지니어로서 평가하는 오픈 소스 벤치마크

요약

에이전트를 시니어 엔지니어 수준으로 평가하기 위해 설계된 새로운 오픈 소스 벤치마크인 Senior SWE-Bench를 소개합니다. 자연어 기반의 모호한 지시사항과 복잡한 런타임 조사가 필요한 버그 해결 능력을 측정하며, 기존 모델들의 한계를 보여줍니다.

핵심 포인트

시니어 엔지니어의 업무 방식인 모호한 요구사항 처리 및 런타임 조사 능력 평가
전문가 설계 레시피 기반의 검증 에이전트를 통한 솔루션 검증
코드베이스 관행 및 런타임 정확성을 결합한 품질 지표 도입
프론티어 모델들도 시니어 수준의 과업 완수에는 어려움을 겪음

Senior SWE-Bench

우리는 에이전트를 시니어 엔지니어처럼 대우하는데, 왜 평가는 주니어 엔지니어처럼 하나요?

시니어 엔지니어는 과도하게 상세한 요구사항 없이도 기능을 구축합니다

Senior SWE-Bench의 기능(feature) 태스크는 과도하게 상세한 요구사항(over-specified requirements)이라기보다 자연어 메시지처럼 읽히는 현실적인 지침을 제공합니다. 이러한 태스크를 신뢰성 있게 평가하기 위해, 우리는 제출된 솔루션에 적응하여 행동 테스트(behavioral tests)를 작성하는 전문가 설계 레시피(expert-designed recipes) 기반의 검증 에이전트(validation agent)를 도입합니다.

시니어 엔지니어는 행동 보고서로부터 런타임 조사가 필요한 버그를 해결합니다

Senior SWE-Bench의 버그(bug) 태스크는 까다로운 사용자 보고를 반영하며, 서비스 시작부터 미묘한 런타임(runtime) 문제 디버깅에 이르기까지 조사(investigation)에 집중합니다. 이 태스크들은 해결을 위해 상당한 런타임 조사(예: 로그, 프로파일링 데이터, 재현 단계)가 필요했던 PR(Pull Requests)에서 가져왔습니다.

시니어 엔지니어는 지시받지 않아도 올바른 코드를 배포합니다

Senior SWE-Bench는 런타임 정확성 테스트(runtime correctness tests)와 관찰된 코드베이스 관행(codebase practices)에 기반한 여러 품질 지표를 결합하여 수준 높은 해결책(tasteful solves)을 점수화합니다. 또한, 검증기(verifiers)와 검증(validation) 프로세스는 지침에 명시되지 않은, 코드베이스의 핵심적인 관행(load-bearing codebase practices)을 기준으로 테스트할 수 있습니다.

리더보드 (Leaderboard)

1Claude Opus 4.8Mini-SWE-Agent · max24.0%
Claude Sonnet 5Mini-SWE-Agent · max19.4%
2GPT-5.5Mini-SWE-Agent · xhigh16.0%
3Claude Opus 4.7Mini-SWE-Agent · max14.1%
4GPT-5.4Mini-SWE-Agent · xhigh14.0%
5GLM-5.2Mini-SWE-Agent · max12.5%
6Kimi K2.6Mini-SWE-Agent · default8.2%
7Claude Sonnet 4.6Mini-SWE-Agent · high8.2%
8Gemini 3.1 ProMini-SWE-Agent · high6.1%
9Gemini 3.5 FlashMini-SWE-Agent · medium3.0%

#	모델 (Model)	노력 (Effort)	해결률 (Solve rate (pass@1))
1	max	24.0%
...

최상위 성능을 보이는 프론티어 모델(frontier models)들도 75% 이상의 경우에서 시니어 수준의 정확성과 안목(taste)을 갖춘 태스크 완수에 실패합니다.

태스크 (Tasks)

Senior SWE-Bench 태스크는 라이브러리부터 멀티 서비스 애플리케이션(multi-service applications)에 이르는 다양한 리포지토리의 PR(Pull Requests)에서 가져왔으며, 각 리포지토리에서 수백 개의 커밋을 수행한 엔지니어들이 작성한 것입니다. 우리는 다단계(multi-phase), 다중 스택(multi-stack) 기능 PR 및 상당한 런타임 조사(runtime investigation)가 필요한 버그/성능 관련 PR에 집중합니다. 태스크 설계에 대한 자세한 내용은 블로그 포스트를 읽어보세요.

더 자연스럽고 불충분하게 명시된 지시사항 (More naturally under-specified instructions)

Senior SWE-Bench 태스크는 에이전트와의 자연스러운 소통을 반영하며, 지시사항 길이의 중앙값(median)은 SWE-Bench Pro의 31% 수준입니다.

더 다양한 태스크 범위 (More diverse task scope)

Senior SWE-Bench 기능 태스크는 여러 서비스에 걸쳐 있을 수 있으며, 기능 태스크당 평균 11개의 파일이 수정됩니다.

더 긴 태스크 호라이즌 (Longer task horizon)

Senior SWE-Bench 태스크는 롱 호라이즌(long-horizon)으로 설계되어, 가장 강력한 에이전트에게도 수백 단계의 과정이 필요합니다.

더 자연스럽고 불충분하게 명시된 지시사항 (More naturally under-specified instructions)

Senior SWE-Bench 태스크는 에이전트와의 자연스러운 소통을 반영하며, 지시사항 길이의 중앙값(median)은 SWE-Bench Pro의 31% 수준입니다.

더 다양한 태스크 범위 (More diverse task scope)

Senior SWE-Bench 기능 태스크는 여러 서비스에 걸쳐 있을 수 있으며, 기능 태스크당 평균 11개의 파일이 수정됩니다.

더 긴 태스크 호라이즌 (Longer task horizon)

Senior SWE-Bench 태스크는 롱 호라이즌(long-horizon)으로 설계되어, 가장 강력한 에이전트에게도 수백 단계의 과정이 필요합니다.

참조 솔루션(Reference-solution)의 SLOC(Source Lines of Code) 및 파일 수는 세 가지 벤치마크 모두에서 동일하게 측정됩니다. 지시사항 길이는 하네스(harness)의 보일러플레이트(boilerplate)를 제외합니다. 다른 벤치마크의 토큰 및 단계(step) 수는 해당 벤치마크가 자체적으로 보고한 지표를 기반으로 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Senior SWE-Bench: 에이전트를 시니어 엔지니어로서 평가하는 오픈 소스 벤치마크

요약

핵심 포인트

Senior SWE-Bench

시니어 엔지니어는 과도하게 상세한 요구사항 없이도 기능을 구축합니다

시니어 엔지니어는 행동 보고서로부터 런타임 조사가 필요한 버그를 해결합니다

시니어 엔지니어는 지시받지 않아도 올바른 코드를 배포합니다

리더보드 (Leaderboard)

태스크 (Tasks)

더 자연스럽고 불충분하게 명시된 지시사항 (More naturally under-specified instructions)

더 다양한 태스크 범위 (More diverse task scope)

더 긴 태스크 호라이즌 (Longer task horizon)

더 자연스럽고 불충분하게 명시된 지시사항 (More naturally under-specified instructions)

더 다양한 태스크 범위 (More diverse task scope)

더 긴 태스크 호라이즌 (Longer task horizon)

댓글

실전 AI 기술: 실제로 작동하는 n8n 비디오 재가공 자동화 구축하기

6,380억 달러의 수주 잔고를 보유하고 18개월 만의 저점 근처에서 거래 중인 이 AI 인프라 기업

SPDR Health Care ETF, 장기 수익률에서 iShares Biotech 앞서

OCBC, AI 아바타 기반 자산 관리 앱 공개

6,380억 달러의 수주 잔고를 보유하고 18개월 만의 저점 근처에서 거래 중인 이 AI 인프라 기업

SPDR Health Care ETF, 장기 수익률에서 iShares Biotech 앞서

OCBC, AI 아바타 기반 자산 관리 앱 공개