Loc2Repair: 저장소 수준 LLM 수리에서 파일 수준 이슈 로컬라이제이션의 영향력을 평가하기 위한 프레임워크
요약
저장소 기반 자동 수리 과정에서 파일 수준의 이슈 로컬라이제이션이 미치는 영향을 평가하기 위한 모듈형 프레임워크 Loc2Repair를 제안합니다. 실험 결과, 명시적인 로컬라이제이션은 수리 성공률을 높이고 평균 경과 시간을 단축하는 핵심 요소임을 입증했습니다.
핵심 포인트
- Loc2Repair 프레임워크를 통한 로컬라이제이션과 수리 모델의 분리 평가 가능
- 명시적 로컬라이제이션 도입 시 모든 수리 백본의 해결률 향상
- 로컬라이제이션 가이드를 통한 평균 경과 시간(latency)의 유의미한 단축
- SWE-bench Verified 데이터셋을 활용한 성능 검증 완료
저장소 기반 자동 수리 (Repository-grounded automated repair)는 종종 단일 엔드 투 엔드 (end-to-end) 능력으로 보고되곤 하는데, 이는 부적절한 파일 타겟팅 (file targeting), 잘못된 패치 합성 (patch synthesis), 반복적 디버깅 (iterative debugging) 실패와 같은 뚜렷한 실패 모드들을 가립니다. 우리는 저장소 기반 수리 파이프라인의 통제된 분석을 위한 모듈형 평가 프레임워크인 Loc2Repair를 제시하며, 이를 사용하여 파일 수준의 이슈 로컬라이제이션 (issue localization)을 상류 변수 (upstream variable)로 분리합니다. Loc2Repair는 공유된 런타임 (runtime), 아티팩트 스키마 (artifact schema), 그리고 평가 하네스 (evaluation harness) 하에서 로컬라이제이션과 수리를 분리하여, 연구자들이 동일한 조건 하에서 서로 다른 로컬라이제이션 모델과 수리 백본 (repair backbones)을 결합할 수 있도록 합니다. SWE-bench Verified 데이터셋에서 세 가지 수리 백본을 사용하여, 명시적인 로컬라이제이션이 없는 베이스라인 수리, 두 개의 로컬라이저로부터 예측된 로컬라이제이션에 의해 가이드되는 수리, 그리고 골드 수정 파일 세트 (gold modified-file sets)에 의해 가이드되는 수리를 비교합니다. 명시적인 로컬라이제이션은 모든 백본에 걸쳐 해결률 (resolved rate)을 일관되게 향상시킵니다. 풀링된 성능 (pooled performance)은 베이스라인 수리의 44.7%에서 예측된 로컬라이제이션을 사용할 경우 48.9% 및 49.1%로 증가하며, 골드 로컬라이제이션 (gold localization)을 사용할 경우 52.4%까지 증가합니다. 또한 로컬라이제이션은 전반적인 평균 경과 시간 (mean elapsed time)을 단축합니다. 풀링된 쌍 분석 (pooled paired analysis)에서, 두 가지 예측된 로컬라이제이션 설정에서는 평균 경과 시간이 각각 100.94초와 52.25초 감소하며, 골드 가이드 (gold guidance)를 사용할 때는 154.45초 감소합니다. 다만 토큰 효과는 모델마다 이질적 (heterogeneous)으로 나타납니다. 종합적으로 Loc2Repair는 파일 수준의 로컬라이제이션이 일관된 수리 레버 (repair lever)임을 보여주며, 풀링된 분석에서 효과성과 평균 지연 시간 (mean latency)을 개선하는 동시에, 골드 가이드 실패 사례를 통해 로컬라이제이션 너머의 개선 여지 (headroom)를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기