arXiv논문2026. 05. 27. 11:33

RepoMirage: 섭동(Perturbations)을 통한 코드 에이전트의 저장소 컨텍스트 추론 능력 조사

요약

코드 에이전트의 저장소 컨텍스트 추론 능력을 평가하기 위한 새로운 벤치마크인 RepoMirage를 소개합니다. 섭동(perturbation) 기법을 통해 에이전트가 구조적 정보를 활용하는 데 한계가 있음을 밝히고, 이를 개선하기 위한 구조 우선 워크플로우인 RepoAnchor를 제안합니다.

핵심 포인트

RepoMirage: 저장소 컨텍스트 추론 능력을 진단하는 2단계 평가 스위트
섭동 적용 시 에이전트의 성능이 급격히 하락하여 컨텍스트 추론 결함 확인
탐색 드리프트(exploration drift) 현상 발견: 구조 정보를 효과적으로 전환하지 못함
RepoAnchor: 구조적 스캐폴딩을 통해 성능을 개선하는 프로토타입 워크플로우 제안

코드 에이전트(Code agents)는 현재 저장소 수준(repository-level)의 소프트웨어 엔지니어링 벤치마크에서 숙련된 성능을 보여주고 있지만, 이슈 해결(issue resolution)과 같은 엔드 투 엔드(end-to-end) 작업에서의 성공이 여러 파일에 걸친 작업 관련 정보를 식별하고 그들 사이의 관계를 추론하는 능력인 저장소 컨텍스트 추론(repository context reasoning)을 진정으로 반영하는지는 여전히 불분명합니다. 이 문제를 조사하기 위해, 우리는 SWE-Bench Verified를 기반으로 구축된 2단계 평가 스위트인 RepoMirage를 소개합니다. RepoMirage는 저장소가 노출되는 방식을 변형함으로써 컨텍스트 추론에 대한 요구 사항을 높이기 위해 진단 도구로서 섭동(perturbation)을 채택합니다. 첫째, RepoMirage-Perturb는 세 가지 유형의 의미 보존적(semantics-preserving) 저장소 수준 섭동을 적용하며, 올바른 해결을 위해 더 넓은 컨텍스트 접근이 필요할 때 성능이 명확하게 하락함을 보여줍니다. RepoMirage-Extend는 섭동을 목표로 하는 구조적 병목 현상을 이슈 해결을 넘어선 명시적 작업으로 전환하며, 여기서 평균 성능은 기존 설정의 66.8%에서 25.3%로 감소하여 저장소 컨텍스트 추론의 심각한 결함을 나타냅니다. 추가적인 궤적 분석(trajectory analysis) 결과, 에이전트가 더 넓은 저장소 컨텍스트에 접근하지만 이를 효과적인 구조 정보로 전환하는 데 실패하는 탐색 드리프트(exploration drift) 현상이 드러났습니다. 이러한 관찰에 착안하여, 우리는 저장소 탐색을 다운스트림 문제 해결과 분리하는 구조 우선(structure-first) 프로토타입 워크플로우인 RepoAnchor를 제안하며, 명시적인 구조적 스캐폴딩(structural scaffolding)이 주목할 만한 이득을 가져다준다는 것을 보여줍니다. 이러한 결과는 코드 에이전트의 저장소 컨텍스트 추론에서 이전에 간과되었던 격차를 밝혀내며, 더 강력한 구조 인식(structure-aware) 방법론이 이를 개선할 잠재력이 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RepoMirage: 섭동(Perturbations)을 통한 코드 에이전트의 저장소 컨텍스트 추론 능력 조사

요약

핵심 포인트

댓글