본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 21:22

패치에서 궤적으로: 소프트웨어 엔지니어링 (SWE) 에이전트를 위한 특권적 프로세스 감독

요약

SWE 에이전트의 학습 데이터 품질을 높이기 위해 개발자의 패치를 활용하는 P2T(Patches-to-Trajectories) 방법론을 제안합니다. 기존 SFT 방식의 결함을 해결하기 위해 단계별 효과성과 궤적 길이를 최적화하여 고품질의 추론 궤적을 생성합니다.

핵심 포인트

  • 개발자 패치를 특권 정보로 활용하여 고품질 궤적 구축
  • 단계별 효과성과 궤적 길이의 이중 목적 최적화 수행
  • SWE-bench Verified에서 Pass@1 성능을 최대 10.8pt 향상
  • 추론 비용을 약 15% 절감하며 데이터 효율성 입증

긴 교사 궤적 (teacher trajectories)에 대한 지도 미세 조정 (Supervised fine-tuning, SFT)은 오픈 소프트웨어 엔지니어링 (SWE) 에이전트에게 조사 및 추론 능력을 주입하는 지배적인 방법입니다. 유지되는 모든 응답이 모방 대상이 되기 때문에, 학생 모델은 최종 결과뿐만 아니라 근거 없는 비약이나 불필요한 루프를 포함한 중간 단계의 결함까지 물려받게 됩니다. 고품질 학습 데이터는 효과적이어야 하며 (각 단계가 근거를 가지고 에이전트의 정답 수정에 대한 인식론적 격차를 좁혀야 함), 효율적이어야 합니다 (각 단계가 중복되거나 루프를 형성하는 대신 정보를 담고 있어야 함). 기존의 방식들은 이진 최종 검증기 (binary terminal verifier)만을 사용하여 교사 롤아웃 (teacher rollouts)을 필터링하거나 레이블을 다시 지정하는데, 이는 이러한 축들을 직접적으로 겨냥하지 못하며 교사가 실패한 사례에 대해서는 감독을 제공하지 못합니다. 대부분의 실제 이슈에는 개발자가 작성한 참조 패치 $p^
atural$가 포함되어 있어, 정답 수정에 의해 전제된 파일 경로, 런타임 동작 및 코딩 컨벤션을 드러내지만, 표준 파이프라인은 이를 폐기합니다. 우리는 큐레이션 과정에서 $p^
atural$를 특권 정보 (privileged information)로 사용하는 Patches-to-Trajectories (P2T)를 제안하며, 궤적 구축을 단계별 효과성 (effectiveness)과 궤적 길이 (trajectory length)에 대한 이중 목적 최적화 (bi-objective optimization)로 공식화합니다. 역방향 단계 (reverse phase)는 $p^
atural$를 문맥적 사실과 솔루션 마일스톤을 담은 잠재적 프로세스 그래프 $G^
atural$로 증류합니다. 순방향 단계 (forward phase)는 정보 유출을 차단하는 근거 확인 (leakage-blocking groundedness check) 하에 $G^
atural$에 대비하여 단계별 진행 상황을 점수화하고 가장 짧고 효과적인 세그먼트를 유지함으로써, 정보가 가려진 교사 연속 실행 (blinded teacher continuations)으로부터 궤적을 큐레이션합니다. 단 1.8k개의 큐레이션된 SWE-Gym 인스턴스만을 사용하여, P2T는 결과 필터링 기반 SFT 및 그 도구 오류 마스킹 (tool-error-masking) 변형 모델보다 효과성과 효율성을 개선합니다. SWE-bench Verified에서 P2T는 Pass@1을 최대 10.8포인트 높이는 동시에 인스턴스당 추론 비용을 약 15% 절감하였으며, SWE-bench Lite에서도 일관된 성능 향상을 보였습니다. 규모를 맞춘 절제 연구 (Size-matched ablations) 및 정성적 분석을 통해 데이터 규모와 분리된 궤적 품질의 효과를 추가로 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0