arXiv논문2026. 06. 24. 11:37

SHERLOC: 코드 수정 에이전트를 위한 구조화된 진단 로컬라이제이션 (Structured Diagnostic Localization)

요약

SHERLOC은 코드 수정 에이전트의 효율성을 높이기 위해 결함 위치를 진단하고 맥락을 제공하는 훈련 불필요 프레임워크입니다. 별도의 미세 조정 없이도 높은 로컬라이제이션 성능을 보이며, 수정 에이전트의 해결률을 높이고 토큰 사용량을 절감합니다.

핵심 포인트

SHERLOC은 훈련 없이 추론 LLM과 저장소 도구를 결합한 프레임워크임
SWE-Bench Lite에서 84.33%의 높은 정확도를 기록함
수정 에이전트의 해결률을 평균 5.95%p 상승시킴
로컬라이제이션 및 총 토큰 사용량을 각각 36.7%, 23.1% 절감함

LLM 에이전트들은 다회차 도구 사용 (multi-turn tool use)을 통해 저장소 수준 (repository-level)의 코딩 작업을 해결하지만, 수정 작업을 수행하기 전 결함을 찾는 데 예산의 절반을 소모합니다. 전용 로컬라이제이션 (localization) 프레임워크들이 등장했으나, 여전히 실행 가능한 진단 (actionable diagnosis)보다는 파일 검색 (file retrieval) 관점에서 평가되고 있어, 수정 에이전트가 필요로 하는 진단적 맥락 (diagnostic context) 없이 위치만을 생성합니다. 우리는 미세 조정 (fine-tuning)이나 멀티 에이전트 오케스트레이션 (multi-agent orchestration) 없이, 추론 LLM을 컴팩트한 저장소 도구 및 자기 회복 (self-recovery) 기능과 결합한 훈련이 필요 없는 프레임워크인 SHERLOC (Structured Hypothesis-driven Exploration and Reasoning for Localization)을 소개합니다. SHERLOC는 모델 규모 전반에 걸쳐 최첨단 (state-of-the-art) 로컬라이제이션 성능을 달나합니다: SWE-Bench Lite에서 84.33%의 accuracy@1을, SWE-Bench Verified에서 81.27%의 recall@1을 기록했습니다. 약 30B 파라미터 규모에서 다른 에이전트 방식들과 대등하거나 이를 능가하는 성능을 보여줍니다. 우리의 로컬라이제이션 결과와 진단 결과 (diagnostic findings)를 수정 에이전트에 주입하면, SWE-Bench Verified에서 평균 +5.95 pp의 해결률 (resolve rate) 상승을 가져오는 동시에, 로컬라이제이션 및 총 토큰 (total tokens) 사용량을 각각 36.7%와 23.1% 절감합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SHERLOC: 코드 수정 에이전트를 위한 구조화된 진단 로컬라이제이션 (Structured Diagnostic Localization)

요약

핵심 포인트

댓글