Loc2Repair: 저장소 수준 LLM 수리에서 파일 수준 이슈 로컬라이제이션의 영향력을 평가하기 위한 프레임워크

저장소 기반 자동 수리 (Repository-grounded automated repair)는 종종 단일 엔드 투 엔드 (end-to-end) 능력으로 보고되곤 하는데, 이는 부적절한 파일 타겟팅 (file targeting), 잘못된 패치 합성 (patch synthesis), 반복적 디버깅 (iterative debugging) 실패와 같은 뚜렷한 실패 모드들을 가립니다. 우리는 저장소 기반 수리 파이프라인의 통제된 분석을 위한 모듈형 평가 프레임워크인 Loc2Repair를 제시하며, 이를 사용하여 파일 수준의 이슈 로컬라이제이션 (issue localization)을 상류 변수 (upstream variable)로 분리합니다. Loc2Repair는 공유된 런타임 (runtime), 아티팩트 스키마 (artifact schema), 그리고 평가 하네스 (evaluation harness) 하에서 로컬라이제이션과 수리를 분리하여, 연구자들이 동일한 조건 하에서 서로 다른 로컬라이제이션 모델과 수리 백본 (repair backbones)을 결합할 수 있도록 합니다. SWE-bench Verified 데이터셋에서 세 가지 수리 백본을 사용하여, 명시적인 로컬라이제이션이 없는 베이스라인 수리, 두 개의 로컬라이저로부터 예측된 로컬라이제이션에 의해 가이드되는 수리, 그리고 골드 수정 파일 세트 (gold modified-file sets)에 의해 가이드되는 수리를 비교합니다. 명시적인 로컬라이제이션은 모든 백본에 걸쳐 해결률 (resolved rate)을 일관되게 향상시킵니다. 풀링된 성능 (pooled performance)은 베이스라인 수리의 44.7%에서 예측된 로컬라이제이션을 사용할 경우 48.9% 및 49.1%로 증가하며, 골드 로컬라이제이션 (gold localization)을 사용할 경우 52.4%까지 증가합니다. 또한 로컬라이제이션은 전반적인 평균 경과 시간 (mean elapsed time)을 단축합니다. 풀링된 쌍 분석 (pooled paired analysis)에서, 두 가지 예측된 로컬라이제이션 설정에서는 평균 경과 시간이 각각 100.94초와 52.25초 감소하며, 골드 가이드 (gold guidance)를 사용할 때는 154.45초 감소합니다. 다만 토큰 효과는 모델마다 이질적 (heterogeneous)으로 나타납니다. 종합적으로 Loc2Repair는 파일 수준의 로컬라이제이션이 일관된 수리 레버 (repair lever)임을 보여주며, 풀링된 분석에서 효과성과 평균 지연 시간 (mean latency)을 개선하는 동시에, 골드 가이드 실패 사례를 통해 로컬라이제이션 너머의 개선 여지 (headroom)를 드러냅니다.

Insights

Loc2Repair: 저장소 수준 LLM 수리에서 파일 수준 이슈 로컬라이제이션의 영향력을 평가하기 위한 프레임워크

요약

핵심 포인트

댓글

모델 티어 제어와 AI 제품 신뢰성

메모리 및 스토리지 가격 상승으로 인해 신규 PC 구매가 약 3년 만에 가장 급격히 감소 — 출하량 7% 하락, 분석가들은 저가형 노트북에

AI 연구진, 사용자가 초록색 셔츠를 입었다고 믿게 만들면 챗봇이 코카인 제조법을 공유하도록 속이는 'CoT Forgery' 취약점 발견

XBI, 시장 하락세를 무시하다

메모리 및 스토리지 가격 상승으로 인해 신규 PC 구매가 약 3년 만에 가장 급격히 감소 — 출하량 7% 하락, 분석가들은 저가형 노트북에

AI 연구진, 사용자가 초록색 셔츠를 입었다고 믿게 만들면 챗봇이 코카인 제조법을 공유하도록 속이는 'CoT Forgery' 취약점 발견

XBI, 시장 하락세를 무시하다