arXiv논문2026. 06. 16. 11:52

Open-SWE-Traces: 소프트웨어 엔지니어링 에이전트를 위한 이중 모드 다국어 증류 기술의 발전

요약

소프트웨어 엔지니어링 에이전트 학습을 위한 대규모 다국어 궤적 데이터셋인 Open-SWE-Traces를 소개합니다. 9가지 프로그래밍 언어와 20만 개 이상의 에이전트 궤적을 포함하며, 하이브리드 추론 합성 방식을 통해 고품질 데이터를 제공합니다.

핵심 포인트

9가지 프로그래밍 언어를 지원하는 207,489개의 에이전트 궤적 데이터셋 구축
Minimax-M2.5와 Qwen3.5를 활용한 하이브리드 추론 합성 기술 적용
Qwen3-30B-A3B 미세 조정을 통해 SWE-bench Verified에서 61.7% 해결률 달성
오픈 소스 에이전트 LLM의 성능 향상을 위한 효율적인 증류 리소스 제공

자율 소프트웨어 엔지니어링(autonomous software engineering)을 향한 여정은 현재 다양하고 대규모인 궤적 데이터(trajectory data)의 심각한 부족으로 인해 병목 현상을 겪고 있습니다. 우리는 9가지 프로그래밍 언어(Python, Go, TS, JS, Rust, Java, PHP, C, C++)에 걸쳐 207,489개의 에이전트 궤적을 포함하는 확장된 데이터셋인 ourdataset을 도입함으로써 이 문제를 해결합니다. OpenHands 및 SWE-agent 하네스를 통해 20,000개의 실제 PR(Pull Requests)에서 수집된 이 데이터셋은 하이브리드 추론 합성(hybrid-reasoning synthesis) 방식을 활용합니다. 즉, Minimax-M2.5는 명시적인 "사고(thinking)" 과정을 포함하는 궤적을 생성하고, Qwen3.5-122B는 고품질의 "비사고(non-thinking)" 흔적(traces)을 제공합니다. SWE-rebench-V2에서 허용 가능한 라이선스(MIT, Apache, BSD)를 기준으로 필터링된 이 데이터는 장기적 추론(long-horizon reasoning)이 가능한 모델의 학습을 용이하게 합니다. 우리는 Qwen3-30B-A3B 시리즈(Thinking, Instruct, Coder)를 미세 조정(fine-tuning)하여 이 데이터셋을 검증합니다. 가장 성능이 뛰어난 모델은 SWE-bench Verified에서 61.7%, SWE-bench Multilingual에서 57.1%, SWE-bench Pro에서 36.8%의 해결률(resolve rates)을 달성했습니다. 이러한 결과는 Open-SWE-Traces가 인간 수준의 소프트웨어 엔지니어링 능력을 효율적인 오픈 소스 에이전트 LLM으로 증류(distilling)하기 위한 최고의 리소스임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Open-SWE-Traces: 소프트웨어 엔지니어링 에이전트를 위한 이중 모드 다국어 증류 기술의 발전

요약

핵심 포인트

댓글