arXiv논문2026. 06. 08. 11:20

Socratic-SWE: 실행 추적 기반 에이전트 기술을 통한 자기 진화형 코딩 에이전트

요약

Socratic-SWE는 에이전트의 과거 해결 추적을 활용하여 스스로 진화하는 폐쇄 루프 프레임워크를 제안합니다. 실패 사례와 수정 패턴을 구조화된 기술로 증류하여 타겟팅된 작업을 생성하고, 이를 통해 SWE-bench 등 주요 벤치마크에서 성능을 지속적으로 향상시킵니다.

핵심 포인트

에이전트의 해결 추적을 학습 신호로 재사용하는 폐쇄 루프 구조
실패 사례와 수정 패턴을 구조화된 에이전트 기술로 증류
실행 기반 검증 및 솔버-그래디언트 정렬 보상 활용
SWE-bench Verified에서 3회 반복 후 50.40% 성능 달성

LLM(Large Language Model) 기반의 소프트웨어 엔지니어링 (SWE) 에이전트는 실제 언어 모델 역량을 평가하는 핵심 테스트베드가 되었으나, 이들의 학습은 고품질의 SWE 작업 (task) 가용성 문제로 인해 여전히 제한적입니다. 기존의 합성 데이터 (synthetic data) 생성 방식은 일반적으로 고정된 변이 (mutation) 또는 버그 주입 (bug-injection) 절차를 통해 작업을 생성하며, 이로 인해 결과물인 데이터 분포가 에이전트 자체의 약점이나 학습 진행 상황과는 크게 무관하게 형성됩니다. 본 논문에서는 에이전트의 과거 해결 추적 (solving traces)을 학습 신호의 원천으로 재사용하는 폐쇄 루프 (closed-loop) 자기 진화 프레임워크인 Socratic-SWE를 소개합니다. Socratic-SWE는 추적 데이터를 단순히 보상 계산을 위한 증거로만 취급하는 대신, 반복되는 실패 사례와 효과적인 수정 패턴을 요약한 구조화된 에이전트 기술 (agent skills)로 증류 (distill) 합니다. 이렇게 생성된 기술은 실제 저장소 (repository) 내에서 타겟팅된 수정 작업을 생성하도록 가이드합니다. 후보 작업들은 실행 기반 검증 (execution-based validation)을 통해 확인되며, 솔버-그래디언트 정렬 보상 (solver-gradient alignment reward)으로 점수가 매겨집니다. 이를 통해 유지되는 작업들은 검증 가능할 뿐만 아니라 솔버 (Solver)를 개선하는 데 유용하게 사용됩니다. 업데이트된 솔버는 새로운 추적을 생성하며, 이를 통해 작업 커리큘럼 (task curriculum)이 연속적인 라운드에 걸쳐 적응할 수 있게 합니다. SWE-bench Verified, SWE-bench Lite, SWE-bench Pro, 그리고 Terminal-Bench 2.0에 걸쳐, Socratic-SWE는 동일한 컴퓨팅 예산 하에서 자기 진화형 베이스라인 (baselines) 대비 지속적인 성능 향상을 보였으며, 3회 반복 후 SWE-bench Verified에서 50.40%에 도달했습니다. 이러한 결과는 해결 추적이 자기 진화형 SWE 에이전트를 위한 확장 가능한 기질 (substrate) 역할을 할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Socratic-SWE: 실행 추적 기반 에이전트 기술을 통한 자기 진화형 코딩 에이전트

요약

핵심 포인트

댓글