arXiv논문2026. 05. 13. 04:22

BoostAPR: 실행 기반 강화학습을 통한 자동 프로그램 복구 향상

요약

BoostAPR은 프로그램 복구를 위한 강화학습의 한계를 극복하기 위해 설계된 3단계 프레임워크입니다. 이 프레임워크는 지도 미세 조정을 통해 실행 검증 데모노스트레이션을 학습하고, 두 개의 보상 모델(시퀀스 레벨 평가자 및 라인 레벨 크레딧 할당기)을 훈련합니다. 특히, 라인 레벨 크레딧 할당기를 사용하여 코드 변경에 적합한 중간 수준의 세밀도로 보상을 재분배함으로써, 기존 강화학습 방식보다 훨씬 효과적으로 버그 수정 영역을 식별하고 프로그램 복구 성능을 크게 향상시킵니다.

핵심 포인트

BoostAPR은 프로그램 복구를 위한 강화학습 문제를 해결하는 3단계 프레임워크입니다.
이 프레임워크는 지도 미세 조정(SFT)과 두 개의 보상 모델(Sequence-level 평가자 및 Line-level 크레딧 할당기)을 결합하여 사용합니다.
핵심 기여는 라인 레벨 크레딧 할당기를 통해 중간 수준의 세밀도에서 보상을 재분배하는 것입니다.
BoostAPR은 SWE-bench Verified 등 네 가지 벤치마크에서 높은 성능(예: SWE-bench Verified에서 +22.9pp)을 보여 강력한 일반화 능력을 입증했습니다.

프로그램 복구를 위한 강화학습은 희소한 실행 피드백과 어떤 수정 사항이 실제로 버그를 해결했는지 모호하게 만드는 거친 시퀀스 레벨 보상에 의해 방해받습니다. 우리는 이러한 문제들을 다루는 3단계 프레임워크인 BoostAPR을 제시합니다: (1) 추론 트레이스가 포함된 실행 검증 데모노스트레이션으로 지도 미세 조정(supervised fine-tuning), (2) 실행 결과를 통해 두 개의 보상 모델—시퀀스 레벨 평가자 및 라인 레벨 크레딧 할당기—을 훈련하고, (3) PPO 최적화 과정에서 라인 레벨 모델이 중요한 수정 영역에 보상을 재분배합니다. 이 라인 레벨 크레딧 할당은 코드 변경에 자연스럽게 적합한 중간 수준의 세밀도(intermediate granularity)에서 작동합니다. SWE-Gym으로 훈련되었고 네 가지 벤치마크에서 평가된 BoostAPR은 SWE-bench Verified에서 40.7%를 달성했습니다 (기본 모델 대비 +22.9pp), Defects4J에서 24.8%, HumanEval-Java에서 84.5%, 그리고 QuixBugs에서 95.0%를 달성하여, 강력한 교차 언어 일반화 능력을 가진 오픈 소스 모델들 사이에서 경쟁력 있는 결과를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

BoostAPR: 실행 기반 강화학습을 통한 자동 프로그램 복구 향상

요약

핵심 포인트

댓글