패치에서 궤적으로: 소프트웨어 엔지니어링 (SWE) 에이전트를 위한 특권적 프로세스 감독

긴 교사 궤적 (teacher trajectories)에 대한 지도 미세 조정 (Supervised fine-tuning, SFT)은 오픈 소프트웨어 엔지니어링 (SWE) 에이전트에게 조사 및 추론 능력을 주입하는 지배적인 방법입니다. 유지되는 모든 응답이 모방 대상이 되기 때문에, 학생 모델은 최종 결과뿐만 아니라 근거 없는 비약이나 불필요한 루프를 포함한 중간 단계의 결함까지 물려받게 됩니다. 고품질 학습 데이터는 효과적이어야 하며 (각 단계가 근거를 가지고 에이전트의 정답 수정에 대한 인식론적 격차를 좁혀야 함), 효율적이어야 합니다 (각 단계가 중복되거나 루프를 형성하는 대신 정보를 담고 있어야 함). 기존의 방식들은 이진 최종 검증기 (binary terminal verifier)만을 사용하여 교사 롤아웃 (teacher rollouts)을 필터링하거나 레이블을 다시 지정하는데, 이는 이러한 축들을 직접적으로 겨냥하지 못하며 교사가 실패한 사례에 대해서는 감독을 제공하지 못합니다. 대부분의 실제 이슈에는 개발자가 작성한 참조 패치 $p^
atural$가 포함되어 있어, 정답 수정에 의해 전제된 파일 경로, 런타임 동작 및 코딩 컨벤션을 드러내지만, 표준 파이프라인은 이를 폐기합니다. 우리는 큐레이션 과정에서 $p^
atural$를 특권 정보 (privileged information)로 사용하는 Patches-to-Trajectories (P2T)를 제안하며, 궤적 구축을 단계별 효과성 (effectiveness)과 궤적 길이 (trajectory length)에 대한 이중 목적 최적화 (bi-objective optimization)로 공식화합니다. 역방향 단계 (reverse phase)는 $p^
atural$를 문맥적 사실과 솔루션 마일스톤을 담은 잠재적 프로세스 그래프 $G^
atural$로 증류합니다. 순방향 단계 (forward phase)는 정보 유출을 차단하는 근거 확인 (leakage-blocking groundedness check) 하에 $G^
atural$에 대비하여 단계별 진행 상황을 점수화하고 가장 짧고 효과적인 세그먼트를 유지함으로써, 정보가 가려진 교사 연속 실행 (blinded teacher continuations)으로부터 궤적을 큐레이션합니다. 단 1.8k개의 큐레이션된 SWE-Gym 인스턴스만을 사용하여, P2T는 결과 필터링 기반 SFT 및 그 도구 오류 마스킹 (tool-error-masking) 변형 모델보다 효과성과 효율성을 개선합니다. SWE-bench Verified에서 P2T는 Pass@1을 최대 10.8포인트 높이는 동시에 인스턴스당 추론 비용을 약 15% 절감하였으며, SWE-bench Lite에서도 일관된 성능 향상을 보였습니다. 규모를 맞춘 절제 연구 (Size-matched ablations) 및 정성적 분석을 통해 데이터 규모와 분리된 궤적 품질의 효과를 추가로 입증했습니다.

Insights

패치에서 궤적으로: 소프트웨어 엔지니어링 (SWE) 에이전트를 위한 특권적 프로세스 감독

요약

핵심 포인트

댓글

첫 분석: AWS, SageMaker HyperPod에서 Amazon Nova용 다중 턴 RL 인프라 출시

다면적 Rasch 측정 및 다중 작업 딥러닝을 통한 구간 변수 구성: 증오 발언 적용

Microsoft의 게임 개발사 인수 전략 변화에 대한 보도

파킨슨병을 위한 적응형 심부 뇌 자극(aDBS)용 뉴로모픽 실리콘 뉴런 컨트롤러

다면적 Rasch 측정 및 다중 작업 딥러닝을 통한 구간 변수 구성: 증오 발언 적용

Microsoft의 게임 개발사 인수 전략 변화에 대한 보도

파킨슨병을 위한 적응형 심부 뇌 자극(aDBS)용 뉴로모픽 실리콘 뉴런 컨트롤러