Step Rejection Fine-Tuning: 실용적인 증류 레시피
요약
본 기사는 LLM 에이전트 훈련의 표준 방법인 Rejection Fine-Tuning (RFT)의 한계를 지적하고, 이를 개선한 Step Rejection Fine-Tuning (SRFT)을 제안합니다. RFT는 실패한 전체 궤적을 폐기하는 반면, SRFT는 크리틱 LLM을 사용하여 궤적의 개별 단계(step)가 정확한지 평가합니다. 이 방법을 통해 모델은 오류를 재현하지 않으면서도 오류로부터 회복하는 능력을 학습하며, SWE-bench Verified 테스트에서 RFT보다 더 높은 해결률 향상(3.7% vs 2.4%)을 보여주었습니다.
핵심 포인트
- Rejection Fine-Tuning (RFT)은 실패한 전체 궤적을 폐기하는 표준 방법이지만, 중요한 정보 손실이 발생할 수 있습니다.
- Step Rejection Fine-Tuning (SRFT)은 크리틱 LLM을 활용하여 궤적의 개별 단계(step) 오류만을 식별하고 학습 과정에서 해당 단계의 손실만 마스킹합니다.
- SRFT는 모델이 오류를 완전히 폐기하는 대신, 오류로부터 회복하는 방법을 학습하도록 유도합니다.
- SWE-bench Verified 평가 결과, SRFT는 RFT보다 더 높은 해결률 향상(3.7% vs 2.4%)을 달성하여 총 해결률 32.2%를 기록했습니다.
Rejection Fine-Tuning (RFT)은 LLM 에이전트를 훈련하는 표준 방법으로, 실패한 궤적(trajectory)을 학습 데이터셋에서 폐기합니다. SWE-bench 작업의 맥락에서는 제출된 패치가 테스트를 통과하지 못한 실행들을 필터링하는 것에 해당합니다. 하지만 이 접근 방식은 해결되지 않은 궤적들까지 폐기하는데, 이는 어려운 작업들의 모든 궤적 중 상당 부분을 차지하며 심지어 부분적으로는 올바른 경우도 많습니다. 본 연구에서는 이러한 해결되지 않은 궤적들을 활용할 수 있는 실용적인 방법인 Step Rejection Fine-Tuning (SRFT)을 제안합니다. 이를 위해 우리는 크리틱 LLM(critic LLM)을 사용하여 궤적의 각 단계(step)가 정확한지 평가합니다. 결과적으로, 훈련 중에는 오류가 있는 단계에 대한 손실(loss)은 마스킹하고 컨텍스트 창(context window)에는 유지합니다. 이러한 방식으로 모델이 오류를 재현하지 않으면서도 오류로부터 회복하는 법을 학습하도록 보장합니다. SWE-bench Verified에서 평가한 결과, RFT는 해결되지 않은 궤적들을 제외함으로써 해결률을 2.4% 향상시키는 반면, SRFT는 이를 완전히 폐기하는 대신 필터링함으로써 해결률을 3.7% 향상시켜 총 해결률 32.2%에 도달했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기