SWE-Future: 미래 지향적 소프트웨어 엔지니어링 에이전트를 위한 예측 조건부 데이터 합성
요약
SWE-Future는 코딩 에이전트의 벤치마크 오염 문제를 해결하기 위해 미래의 소프트웨어 엔지니어링 태스크를 예측하고 합성하는 새로운 방법론을 제안합니다. 저장소의 과거 데이터를 기반으로 미래의 기능 구현, 버그 수정, 리팩터링 작업을 예측하여 현실적인 합성 데이터를 생성합니다.
핵심 포인트
- 기존 벤치마크의 데이터 오염(Data Contamination) 문제 해결 시도
- 저장소 진화 예측을 통한 미래 지향적 코딩 태스크 합성
- 80개 저장소 대상 연구에서 58.1%의 미래 작업 관련성 달성
- 역사적 PR 재현 의존도를 낮춘 현실적인 데이터셋 구축 가능성 제시
현실적인 코딩 에이전트 (coding-agent) 벤치마크는 종종 공개된 GitHub 이슈와 풀 리퀘스트 (pull requests)를 재현하며, 이로 인해 모델의 사전 학습 (pretraining), 미세 조정 (fine-tuning), 합성 데이터 생성 (synthetic-data generation) 또는 벤치마크 기반 모델 선택과 중복될 위험이 있습니다. 완전히 합성된 태스크는 직접적인 역사적 재현을 피할 수 있지만, 실제 저장소 (repository)의 요구 사항에서 벗어날 수 있습니다. 우리는 미래 지향적인 코딩 태스크를 위한 예측 조건부 데이터 합성 방법인 SWE-Future를 제안합니다. 시간 $T_0$에서의 예측 스냅샷 (forecast snapshot)이 주어지면, 이 방법은 $T_0$ 이전의 저장소 증거만을 사용하여 미래의 기능 구현/강화, 버그 수정 (bugfix), 그리고 리팩터링 (refactor) 태스크 패밀리를 예측합니다. 우리는 먼저 이 예측 단계를 사후적으로 검증합니다. 예측이 고정된 후, 이후의 풀 리퀘스트 (pull requests)는 예측된 태스크 패밀리가 미래의 저장소 작업과 일치하는지 측정하는 용도로만 사용됩니다. 80개의 저장소를 대상으로 한 연구에서, 예측기는 주요 의미론적 매칭 (semantic matching) 지표 하에 58.1%의 미래 작업 관련성 (future-work relevance)을 달성했습니다. 그런 다음 검증된 예측 패밀리를 조건부 신호 (conditioning signals)로 사용하여, 검증에 사용된 이후의 풀 리퀘스트 (pull requests)를 재현하는 대신 태스크 생성 스냅샷 (task-generation snapshot)으로부터 61개 저장소에 걸친 200개 태스크 규모의 코딩 에이전트 데이터셋을 합성합니다. SWE-Future는 저장소 진화 (repository-evolution) 예측이 역사적 풀 리퀘스트 (pull-request) 재현에 대한 직접적인 의존도를 줄이면서도, 현실적이고 미래 지향적인 코딩 태스크 합성을 안내할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기