코딩 에이전트를 위한 저장소 가이드(Repository Guidance)의 탐색 및 정제 튜닝 (Probe-and-Refine Tuning)
요약
코딩 에이전트의 성능을 높이기 위해 저장소 가이드(Repository Guidance)를 생성하고 최적화하는 '탐색 및 정제 튜닝(Probe-and-Refine Tuning)' 기법을 제안합니다. 실험 결과, 이 방식은 에이전트가 올바른 파일에 접근하도록 도와 해결률을 유의미하게 향상시켰습니다.
핵심 포인트
- 탐색 및 정제 튜닝을 통해 저장소 가이드의 효과적 생성 방법 제시
- SWE-bench Verified 테스트에서 평균 해결률 33.0% 달성
- 가이드 개선은 정밀도보다 에이전트의 작업 커버리지 향상에 기여
- 에이전트가 더 많은 단계 예산을 생산적으로 사용할 수 있도록 지원
LLM 기반 코딩 에이전트(coding agents)는 코드 자체에는 존재하지 않는 저장소(repository)에 대한 고차원적인 운영 지식(어떤 파일이 어떤 서브시스템을 포함하고 있는지, 테스트 스위트를 어떻게 실행하는지, 어떤 워크플로우가 역사적으로 잘못된 수정으로 이어졌는지 등)을 필요로 합니다. 엔지니어들은 일반적으로 이러한 컨텍스트를 코딩 에이전트를 위한 지침으로 제공하기 위해 \texttt{AGENTS.md} 파일을 유지 관리하지만, 이것이 실제로 도움이 되는지에 대해서는 논란이 있습니다. 최근 연구들은 LLM이 생성한 가이드(guidance)가 에이전트의 성능을 향상시키는지 아니면 해치는지에 대해 서로 상반된 결과를 보입니다.
본 논문에서 우리는 가이드가 어떻게 생성되는지가 결정적인 변수임을 보여주며, \emph{탐색 및 정제 튜닝 (probe-and-refine tuning)}을 소개합니다. 이는 합성 버그 수정 탐색(synthetic bug-fix probes)을 사용하여, 튜닝 과정 중 에이전트 루프(agent loop)나 도구 사용(tool use) 없이 단일 샷 LLM 호출(single-shot LLM calls)을 통해 저장소의 가이드 파일을 반복적으로 진단하고 패치하는 절차입니다. Qwen3.5-35B-A3B를 사용하여 200단계 동안 4회의 독립적인 시행을 거친 SWE-bench Verified 테스트 결과, 탐색 및 정제(probe-and-refine) 방식은 평균 해결률(mean resolve rate) 33.0%를 달성했습니다. 이는 초기화에 사용된 정적 지식 베이스(static knowledge base)의 28.3% 및 가이드가 없는 베이스라인(unguided baseline)의 25.5%와 비교됩니다 ($p < 0.001$, 두 대조군 모두).
이러한 향상은 정밀도(precision)보다는 커버리지(coverage)에서 기인합니다. 정제된 가이드는 패치당 정밀도가 통계적으로 일정하게 유지되는 동안($\sim$59%, $p = 0.119$), 14.5 퍼센트 포인트(pp) 더 많은 사례에 대해 평가 가능한 패치를 생성합니다. 이는 개선된 가이드가 에이전트가 수행하는 변경 사항의 품질을 높이기보다는, 에이전트가 올바른 파일에 도달할 수 있도록 돕는다는 것을 보여줍니다. 또한, 단계 예산(step-budget) 실험을 통해 가이드가 에이전트로 하여금 더 큰 단계 예산을 생산적으로 사용할 수 있게 해준다는 것을 확인했습니다. NVIDIA-Nemotron-3-Nano-30B-A3B를 이용한 교차 모델(cross-model) 실험에서는 모델이 충분히 진단적인 출력(diagnostic output)을 생성할 수 없을 때 튜닝 루프의 성능이 저하됨을 발견했으나, 그 경우에도 패치당 정밀도는 일정하게 유지되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기