SWE-Explore: AI 코딩 에이전트가 파일을 찾아내도 핵심 라인의 81-86%를 놓치는 이유

요약

SWE-Explore 벤치마크 연구 결과, Claude Code와 Codex 등 주요 AI 코딩 에이전트들이 올바른 파일은 찾아내지만 핵심 코드 라인의 14-19%만을 커버하는 구조적 한계를 보였습니다. 이는 모델의 성능 향상과 관계없이 발생하는 공통적인 문제로 나타났습니다.

핵심 포인트

SWE-Explore 벤치마크는 파일 검색과 실제 수정 단계의 격차를 분석함
AI 에이전트들은 파일 수준의 식별 능력은 높으나 라인 수준 정확도는 급락함
Claude Code, Codex, OpenHands 등 다양한 모델에서 동일한 패턴 발견
모델의 전반적인 성능 향상이 라인 수준의 커버리지 문제를 해결하지 못함

SWE-Explore 벤치마크에 따르면 Claude Code와 Codex는 올바른 파일을 찾아냄에도 불구하고 핵심 라인(critical lines)의 14-19%만을 커버하는 것으로 나타났습니다. 모델의 성능이 향상되어도 이러한 구조적 약점은 해결되지 않습니다.

SWE-Explore는 203개의 오픈 소스 프로젝트에 걸쳐 848개의 버그 수정 작업을 테스트합니다. Claude Code, Codex 5.3, OpenHands 모두 올바른 파일을 찾아내지만, 핵심 라인의 14-19%만을 커버합니다.

주요 사실 (Key facts)

SWE-Explore: 203개의 오픈 소스 프로젝트에서 추출한 848개의 문제.
Claude Code, Codex는 핵심 라인의 14-19%만을 커버함.
Python이 848개 작업 중 547개를 차지하며 압도적임.
파일 히트율(File hit rates)은 높게 유지되지만, 라인 수준의 정확도(line-level accuracy)는 급락함.
6개의 서로 다른 모델을 테스트했으며, 모든 모델에서 동일한 패턴이 나타남.

상하이 교통대학교(Shanghai Jiao Tong University)가 이끄는 국제 연구팀은 코드 검색(code search)과 실제 수정 단계(repair phase)를 분리하여 평가하는 벤치마크인 SWE-Explore를 발표했습니다. 핵심 발견 사항은 다음과 같습니다: AI 코딩 에이전트는 올바른 소스 파일을 안정적으로 식별하지만, 중요한 라인에 대한 라인 수준 커버리지(line-level coverage)는 14-19%로 급락합니다. 출처에 따르면

이 벤치마크는 10개 언어에 걸친 203개의 오픈 소스 프로젝트에서 848개의 문제를 사용합니다 (Python이 547개 작업으로 가장 많으며, Go, JavaScript, Rust가 그 뒤를 잇습니다). 각 문제에 대해 GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 또는 Kimi K2.6와 같은 모델로부터 얻은 최소 두 번의 성공적인 솔루션 실행을 통해 관련 코드 섹션의 정답셋(ground-truth set)을 설정합니다. 여러 독립적인 솔루션 경로가 수렴하는 구절은 핵심 컨텍스트(critical context)로 표시됩니다.

핵심 요약 (Key Takeaways)

SWE-Explore 벤치마크는 Claude Code와 Codex가 올바른 파일을 찾아냄에도 불구하고 핵심 라인의 14-19%만을 커버함을 보여줍니다.
모델의 성능(Model strength)이 구조적 약점(structural weakness)을 해결하지 못합니다.

파일 수준의 성공, 라인 수준의 실패

전통적인 키워드 검색 (keyword search)은 운에 맡기는 수준을 겨우 벗어나는 정도입니다. 저자들은 "RuntimeWarning on Overflow"와 같은 버그 설명이 실제 소스 코드보다 템플릿이나 문서와 더 자주 일치한다는 점을 보여주었습니다. AI 에이전트들은 모든 검색 결과를 한꺼번에 정렬하는 대신, 단계별로 검색함으로써 앞서 나갑니다.

하지만 평가의 초점이 파일 수준 (file-level)에서 라인 수준 (line-level)으로 전환되는 순간, 시스템들은 무너집니다. 범용 코딩 에이전트 (Claude Code, Codex, OpenHands)와 코드 검색을 위해 특별히 설계된 4개의 연구 시스템 모두 14-19%의 라인 커버리지 (line coverage)라는 동일한 범위에 머물렀습니다. 논문에 따르면 다양한 에이전트 아키텍처 (agent architectures)들이 "놀라울 정도로 서로 근접한 결과"를 보였습니다.

모델의 강점(Model strength)이 이를 해결하지 못합니다

연구팀은 OpenAI, Anthropic, Google, Moonshot, Zhipu의 6가지 서로 다른 모델을 사용하여 동일한 에이전트 아키텍처를 실행했습니다. GPT 계열 모델들이 앞서고 있지만, 패턴은 동일합니다. 파일 히트율 (file hit rates)은 높게 유지되는 반면 라인 커버리지 (line coverage)는 낮게 유지됩니다. 더 강력한 언어 모델 (language model)을 문제에 투입한다고 해서 이 격차가 줄어들지는 않습니다.

Pipeline diagram of SWE-Explore showing benchmark construction on the left, from solved agent runs through read actions, line regions, and consensus t

이러한 발견은 Claude Code의 품질이 Opus 4.6 이후 약 25%의 지시 사항 누락 (instruction misses)과 함께 하락한 반면, 동일한 사용자가 Codex 5.3은 95%의 신뢰도를 주장했다는 6월 4일 보고서와 맥을 같이 합니다. SWE-Explore의 결과는 이 약점이 구조적 (structural)이라는 점을 시사합니다. 즉, 에이전트들은 모델이나 아키텍처에 관계없이 변경이 필요한 정확한 라인을 정밀하게 찾아내는 능력이 부족합니다.

이 벤치마크 (benchmark)는 AI 코딩이 평가되는 방식의 사각지대를 드러냅니다. 지금까지 이 분야는 에이전트가 버그를 수정했는지 여부로 판단해 왔습니다. SWE-Explore는 성공적인 수정이라 할지라도 정밀한 이해보다는 운이나 지나치게 넓은 컨텍스트 (context)에 의존할 수 있음을 보여줍니다.

주목해야 할 점

라인 수준의 커버리지 (line-level coverage)를 개선하려는 동일 팀이나 경쟁사들의 후속 연구를 주목하십시오. 만약 Anthropic 또는 OpenAI가 SWE-Explore에서 30% 이상의 점수를 기록하는 에이전트를 출시한다면, 이는 단순한 모델 업그레이드가 아닌 진정한 아키텍처적 돌파구 (architectural breakthrough)를 의미할 것입니다.

Side-by-side comparison showing a conventional benchmark on the left with its Explore, Patch, and Verify pipeline producing a single Resolve Rate, and

출처: the-decoder.com

원문 게시처: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기