arXiv논문2026. 06. 08. 10:32

SWE-Explore: 코딩 에이전트의 저장소 탐색 능력 벤치마킹

요약

코딩 에이전트의 저장소 탐색 능력을 정밀하게 평가하기 위한 새로운 벤치마크인 SWE-Explore를 제안합니다. 기존 벤치마크가 간과했던 코드 로컬라이제이션과 컨텍스트 검색 역량을 라인 수준에서 측정하며, 에이전트 기반 탐색기가 기존 검색 방식보다 우월함을 입증합니다.

핵심 포인트

저장소 탐색 능력을 독립적으로 평가하는 SWE-Explore 벤치마크 소개
10개 언어 및 203개 오픈 소스 저장소 기반의 848개 이슈 포함
커버리지, 랭킹, 컨텍스트 효율성을 통한 정밀한 성능 지표 제공
에이전트 기반 탐색기가 고전적 검색 방식보다 뛰어난 성능을 보임

SWE-bench와 같은 저장소 수준 (Repository-level) 코딩 벤치마크는 코딩 에이전트 (coding agents)의 역량을 급격히 성장시켰습니다. 하지만 이러한 벤치마크들은 대개 코딩 작업을 전체적이고 이진적인 예측 문제 (예: 해결됨 또는 해결되지 않음)로 취급하며, 저장소 이해 (repository understanding), 컨텍스트 검색 (context retrieval), 코드 로컬라이제이션 (code localization), 버그 진단 (bug diagnosis)과 같은 세밀한 에이전트 역량은 간과하고 있습니다. 본 논문에서는 코딩 에이전트의 핵심 역량인 저장소 탐색 (repository exploration) 평가를 분리하여 다루는 벤치마크인 SWE-Explore를 소개합니다. SWE-Explore는 저장소와 이슈가 주어졌을 때, 탐색기 (explorer)가 정해진 라인 예산 (line budget) 내에서 관련 코드 영역의 순위가 매겨진 목록을 반환하도록 요구합니다. SWE-Explore는 10개의 프로그래밍 언어와 203개의 오픈 소스 저장소에 걸친 848개의 이슈를 다룹니다. 각 인스턴스에 대해, 우리는 동일한 이슈를 성공적으로 해결한 독립적인 에이전트 궤적 (agent trajectories)으로부터 라인 수준의 정답 (ground truth)을 도출하며, 이를 통해 그들의 솔루션 경로가 실제로 참조한 특정 코드 영역을 추출합니다. 우리는 커버리지 (coverage), 랭킹 (ranking), 컨텍스트 효율성 (context-efficiency) 차원에서 탐색 능력을 평가하며, 이러한 지표들이 다운스트림 수정 동작 (downstream repair behavior)을 강력하게 추적함을 보여줍니다. 다양한 검색 방법론, 일반 코딩 에이전트, 그리고 특화된 로컬라이저 (localizers)를 대상으로 실험한 결과, 에이전트 기반 탐색기 (agentic explorers)가 기존의 고전적 검색 (classical retrieval)보다 명확히 우월한 계층을 형성함을 확인했습니다. 현대적인 방법론들이 파일 수준의 로컬라이제이션 (file-level localization)에서는 이미 강력한 성능을 보이지만, 라인 수준의 커버리지와 효율적인 랭킹은 여전히 최첨단 탐색기들을 차별화하는 핵심 축으로 남아 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SWE-Explore: 코딩 에이전트의 저장소 탐색 능력 벤치마킹

요약

핵심 포인트

댓글