멀티 파일 변경 위치 식별을 위한 LLM 에이전트의 탐색 구조
요약
LLM 에이전트가 소프트웨어 변경 위치를 식별할 때 발생하는 선형 탐색의 한계를 극복하기 위해 비선형 병렬 탐색 구조를 제안합니다. SWE Bench Pro를 통해 실험한 결과, 도메인 범위 지정 병렬 에이전트 방식이 기존 선형 방식보다 높은 성능을 보임을 입증했습니다.
핵심 포인트
- 선형 탐색의 구조적 불일치 문제를 비선형 병렬 탐색으로 해결
- 도메인 범위 지정 병렬 에이전트가 Haiku급 모델에서 높은 성능 달성
- 문서 진화로 인한 잠재적 의존성이 위치 식별의 주요 난제로 확인
- 단순 파일 시스템 접근은 테스트 파일 과잉 예측으로 성능 저하 유발
- 강제적인 멀티 에이전트 협의는 비용 대비 효율이 낮음
소프트웨어 엔지니어링 도구들은 소프트웨어 문제를 해결하기 위해 변경 사항이 발생한 파일을 식별(localize)하는 과정에서 LLM 기반 에이전트에 점점 더 많이 의존하고 있습니다. 대부분의 AI 에이전트는 저장소(repository)를 선형적으로 탐색합니다. 즉, 한 단계마다 하나의 디렉토리나 파일을 방문합니다. 우리는 이것이 여러 서브시스템에 걸쳐 있는 변경 사항에 대해서는 구조적 불일치(structural mismatch)가 발생한다고 가정합니다. 우리는 선형 순차 탐색(linear sequential exploration)과 비선형적이고 도메인 범위가 지정된 병렬 에이전트 탐색(non-linear, domain-scoped parallel agentic exploration)을 비교합니다. SWE Bench Pro를 초기 벤치마크로 사용하여, 우리는 ansible을 전형적인 사례(exemplar)로 집중 분석합니다. 우리는 단일 베이스 커밋(base commit)에 고정된 GitHub 이슈의 지속 세션 평가(persistent-session evaluation)를 위한 접근 방식을 구축합니다. 우리는 우리의 비선형 도메인 에이전트 파일 순회(file traversal) 시스템을 직접적인 저장소 접근 권한이 없는 기본 LLM, 지속적인 Python REPL을 사용하는 단일 에이전트 재귀 언어 모델 (Recursive Language Model (RLM)) 베이스라인, 그리고 Codex 5.5 High를 사용하는 외부 CLI 베이스라인과 비교합니다. 소규모 Haiku급 모델을 사용한 도메인 범위 지정 병렬 에이전트 생성(Domain scoped parallel agent spawning)은 Haiku급 모델들 중에서 큰 차이로 가장 높은 micro F1을 달성했습니다. 도메인 에이전트(Domain-agents)는 2025년과 2026년의 최신 PR을 포함하여 우리가 확장한 자체 벤치마크에서 훨씬 더 큰 Codex 5.5 High에 이어 두 번째로 높은 성능을 보였습니다. 큐레이션된 기존의 2020 SWE-bench Pro 벤치마크에서는, 더 큰 Sonnet 일반 LLM 베이스라인이 적은 수의 파일을 예측하여 더 높은 정밀도(precision)를 달성함으로써 더 높은 micro F1을 기록했지만, 전체 골드 재현율(all gold recall)은 현저히 낮았습니다. 우리는 또한 세 가지 추가적인 발견을 제시합니다. 첫째, 문서의 진화(documentation evolution)는 어떤 접근 방식에 의해서도 해결되지 않는 잠재적 의존성(latent dependency)입니다. 둘째, 단순한 파일 시스템 접근은 테스트 파일의 과잉 예측으로 인해 위치 식별 성능을 저하시킬 수 있습니다. 마지막으로, 강제적인 멀티 에이전트 협의(multi-agent consultation)는 측정 가능한 도움을 주지 않으며 토큰 비용을 상당히 높입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기