arXiv논문2026. 06. 23. 12:57

코딩 에이전트를 위한 저장소 가이드의 탐색 및 정제 튜닝 (Probe-and-Refine Tuning)

요약

코딩 에이전트의 성능 향상을 위해 저장소 가이드 파일을 진단하고 패치하는 '탐색 및 정제 튜닝(probe-and-refine tuning)' 기법을 제안합니다. 실험 결과, 이 방식은 에이전트가 올바른 파일에 도달하도록 도와 SWE-bench Verified 해결률을 33.0%까지 높였습니다.

핵심 포인트

탐색 및 정제 튜닝은 에이전트 루프 없이 단일 샷 호출로 가이드를 반복 개선함
가이드 개선은 정밀도보다 에이전트의 작업 커버리지를 높이는 데 기여함
정제된 가이드는 에이전트가 더 많은 단계 예산을 생산적으로 사용하도록 도움
SWE-bench Verified 기준 평균 해결률 33.0% 달성

LLM 기반 코딩 에이전트(coding agents)는 코드 자체에는 존재하지 않는 저장소(repository)에 대한 상위 수준의 운영 지식(어떤 파일이 어떤 서브시스템을 포함하는지, 테스트 스위트를 어떻게 실행하는지, 어떤 워크플로우가 역사적으로 잘못된 수정으로 이어졌는지 등)을 필요로 합니다. 엔지니어들은 일반적으로 이러한 컨텍스트를 코딩 에이전트를 위한 지침으로 제공하기 위해 AGENTS.md 파일을 유지 관리하지만, 이것이 실제로 도움이 되는지에 대해서는 논란이 있습니다. 최근 연구들은 LLM이 생성한 가이드(guidance)가 에이전트의 성능을 향상시키는지 아니면 저해하는지에 대해 서로 상반된 결과를 보이고 있습니다. 본 논문에서 우리는 가이드가 어떻게 생성되는지가 결정적인 변수임을 보여주며, '탐색 및 정제 튜닝(probe-and-refine tuning)'을 소개합니다. 이는 합성 버그 수정 프로브(synthetic bug-fix probes)를 사용하여 튜닝 과정 중 에이전트 루프(agent loop)나 도구 사용(tool use) 없이 단일 샷 LLM 호출(single-shot LLM calls)을 통해 저장소의 가이드 파일을 반복적으로 진단하고 패치하는 절차입니다. Qwen3.5-35B-A3B를 사용하여 200단계(steps) 동안 4회의 독립적인 시행을 거친 SWE-bench Verified 실험 결과, probe-and-refine은 평균 해결률(mean resolve rate) 33.0%를 달성했습니다. 이는 초기화에 사용된 정적 지식 베이스(static knowledge base)의 28.3% 및 가이드가 없는 베이스라인(unguided baseline)의 25.5%와 대조됩니다 (두 probe-and-refine 대조군 모두 p < 0.001). 이러한 개선은 정밀도(precision)보다는 커버리지(coverage)에서 기인합니다. 정제된 가이드는 패치당 정밀도가 통계적으로 일정하게 유지되는 동안(~59%, p = 0.119), 14.5 퍼센트 포인트(pp) 더 많은 사례에 대해 평가 가능한 패치를 생성합니다. 이는 개선된 가이드가 에이전트가 수행하는 변경 사항의 품질을 높이기보다는 에이전트가 올바른 파일에 도달하도록 돕는다는 것을 보여줍니다. 나아가, 단계 예산(step-budget) 실험은 가이드가 에이전트로 하여금 더 큰 단계 예산을 생산적으로 사용할 수 있게 해주는 요소임을 보여줍니다. 또한 NVIDIA-Nemotron-3-Nano-30B-A3B를 이용한 교차 모델(cross-model) 실험에서는 모델이 충분히 진단적인 출력(diagnostic output)을 생성할 수 없을 때 튜닝 루프의 성능이 저하되지만, 그 경우에도 패치당 정밀도는 일정하게 유지됨을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

코딩 에이전트를 위한 저장소 가이드의 탐색 및 정제 튜닝 (Probe-and-Refine Tuning)

요약

핵심 포인트

댓글