arXiv논문2026. 06. 25. 11:24

효율적인 이슈 해결을 위한 적응형 멀티 에이전트 스캐폴딩(Adaptive Multi-Agent Scaffolding)을 통한 모델 잠재력 해방

요약

복잡한 버그 해결을 위해 분산형 멀티 에이전트 스캐폴딩인 icat-agent를 제안합니다. 이슈 품질에 따라 워크플로우를 전략적으로 전환하여 컨텍스트 오염을 방지하고 모델의 잠재력을 극대화합니다.

핵심 포인트

동기식 이벤트 기반 메시지 전달을 통한 분산형 스캐폴딩 제안
이슈 품질에 따른 병렬 패칭 및 예비 탐색의 전략적 전환
SWE-bench Verified 및 Pro에서 기존 베이스라인 대비 성능 향상 입증
Claude Code 대비 인스턴스당 평균 비용 절감 및 계산 효율성 확보

모호하고 불완전한 설명을 가진 이슈, 특히 복잡한 버그와 관련된 이슈를 해결하려면 정교하고 장기적인(long-horizon) 워크플로우가 필요합니다. 에이전트는 근본 원인을 찾기 위해 코드베이스를 탐색하고, 실패를 재현하며, 수정 사항을 구현하고, 결과적인 패치를 검증해야 합니다. 따라서 비효율적인 컨텍스트 관리(context management)는 급격한 컨텍스트 저하(context degradation)와 컨텍스트 오염(context poisoning)을 초래하여 성공적인 해결을 방해할 수 있습니다. 우리는 공유된 컨텍스트를 동기식 이벤트 기반 메시지 전달(synchronous, event-based message passing)로 대체하는 분산형 멀티 에이전트 스캐폴딩(multi-agent scaffolding)인 icat-agent를 제안합니다. 루브릭 기반의 이슈 품질 체크(rubric-based issue quality check)를 활용하여, icat-agent는 워크플로우를 전략적으로 전환합니다. 즉, 명확하게 정의된 이슈에 대해서는 병렬 패칭(parallel patching) 및 검증을 시작하는 반면, 품질이 낮은 이슈에 대해서는 예비 탐색(preliminary exploration)을 배치합니다. SWE-bench Verified 및 SWE-bench Pro에 대한 icat-agent의 종합적인 평가는 동일한 기반 모델을 사용하면서도 SWE-agent, mini-SWE-agent, Claude Code를 포함한 주요 베이스라인(baselines)보다 모든 난이도 수준에서 일관되게 성능이 뛰어남을 입증하였으며, SWE-bench Verified에서 3.6-8.4%, SWE-bench Pro에서 6.3-18.5%의 성능 향상을 보여주었습니다. 또한 icat-agent는 계산 효율적이며, 멀티 에이전트 Claude Code 베이스라인과 비교했을 때 인스턴스당 평균 비용을 $1.18 절감합니다. 우리의 연구 결과는 icat-agent와 같은 강력한 스캐폴딩이 고정된 모델 내의 상당한 잠재적 능력(latent capability)을 해방시킨다는 것을 보여줍니다. 동일한 백본(backbone) 모델이 기존 스캐폴딩 하에서보다 icat-agent 하에서 현저하게 더 많은 이슈를 해결했습니다. icat-agent +GPT-5.4-xhigh는 SWE-bench Pro 문제의 67.4%를 해결하여, 현재 SWE-bench Pro의 최고 결과(59.10%, mini-SWE-agent+GPT-5.4-xhigh)보다 8.3%포인트 앞서는 성과를 거두었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 이슈 해결을 위한 적응형 멀티 에이전트 스캐폴딩(Adaptive Multi-Agent Scaffolding)을 통한 모델 잠재력 해방

요약

핵심 포인트

댓글