DeNovoSWE: 전체 저장소 생성을 위한 장기적 관점(Long-Horizon) 환경의 확장
요약
DeNovoSWE는 고수준 사양으로부터 전체 소프트웨어 저장소를 생성하기 위한 대규모 데이터셋을 제안합니다. 샌드박스 에이전트 워크플로우를 통해 구축된 4,818개의 고품질 인스턴스를 포함하며, 이를 통해 모델의 장기적 소프트웨어 엔지니어링 능력을 크게 향상시킵니다.
핵심 포인트
- 전체 저장소 생성을 위한 대규모 데이터셋 DeNovoSWE 소개
- 샌드박스 에이전트 워크플로우를 통한 자동화된 데이터 큐레이션
- 분할 정복 및 비판-수정 철학 기반의 데이터 구축
- Qwen3-30B-A3B 미세 조정을 통해 벤치마크 성능 대폭 향상
LLM(Large Language Model) 기반 코드 에이전트의 능력이 계속해서 발전함에 따라, 이들의 기대 역할은 기존 코드베이스에서의 국소적인 버그 수정(bug fixing)을 넘어 고수준 사양(high-level specifications)으로부터 완전한 소프트웨어 저장소(repository)를 설계하고 구현하는 방향으로 확장되고 있습니다. 그러나 이러한 장기적 관점(long-horizon)의 소프트웨어 엔지니어링(software engineering) 작업을 수행하는 에이전트를 학습시키는 것은 대규모의 검증 가능한 전체 저장소 생성 데이터의 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 전체 저장소 생성을 위한 대규모 데이터셋인 \textbf{DeNovoSWE}를 소개합니다. DeNovoSWE는 4,818개의 고품질 인스턴스로 구성되어 있으며, 각 인스턴스는 문서(documentation)로부터 완전한 저장소를 생성할 것을 요구합니다. 우리의 데이터셋은 정교하게 설계된 샌드박스 에이전트 워크플로우(sandboxed agentic workflow)를 통해 자동으로 구축되어, 인간의 주석(annotation) 없이도 확장 가능한 큐레이션(curation)을 가능하게 합니다. DeNovoSWE는 "분할 정복(divide and conquer)" 및 비판-수정(critic-repair) 철학을 바탕으로 구축되었습니다. 데이터의 품질과 다양성의 균형을 맞추기 위해, 우리는 추가적으로 난이도 인식 궤적 필터링(difficulty-aware trajectory filtering) 전략을 도입했습니다. DeNovoSWE를 통해 Qwen3-30B-A3B를 미세 조정(fine-tuning)한 결과, 장기적 관점의 SWE 성능이 실질적으로 향상되었으며, 까다로운 BeyondSWE-Doc2Repo 벤치마크에서의 점수를 5.8%에서 47.2%로 끌어올렸습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기