arXiv논문2026. 06. 08. 10:33

RASFT: 추론을 위한 Rollout-Adaptive 지도 미세 조정 (Supervised Fine-Tuning)

요약

RASFT는 모델의 추론 능력 향상을 위해 전문가의 가이드를 문제 난이도에 따라 동적으로 조정하는 새로운 SFT 프레임워크입니다. 모델이 스스로 올바른 추론을 할 때는 모방을 완화하고, 어려워할 때만 전문가 데이터를 강화하여 과적합을 방지합니다.

핵심 포인트

문제 해결 가능성에 따라 전문가 감독을 조정하는 정책 인식 SFT 제안
모델의 자체 추론 분포를 보존하고 과도한 정책 드리프트 방지
수학 및 코드 추론 벤치마크에서 기존 SFT 및 RL 방식보다 우수한 성능 입증

지도 미세 조정 (Supervised Fine-Tuning, SFT)은 오프라인 전문가 시연 (offline expert demonstrations)을 모방함으로써 대규모 언어 모델 (Large Language Models, LLMs)을 추론 작업에 적응시키는 유행하는 방법이며, 종종 단일 전문가 궤적 (expert trajectory)을 목표 동작으로 취급합니다. 그러나 추론은 단순한 경로 모방이 아닙니다. 제시된 하나의 해결책을 경직되게 따르는 것은 표면적인 형태에 과적합 (overfit)될 수 있으며 모델 자체의 추론 분포 (reasoning distribution)를 억제할 수 있습니다. 우리는 검증된 온-정책 롤아웃 (on-policy rollouts)으로부터 추정된 문제 수준의 해결 가능성 (solvability)에 따라 전문가 감독을 조정하는 정책 인식 SFT 프레임워크인 Rollout-Adaptive Supervised Fine-Tuning (RASFT)을 제안합니다. 각 문제에 대해, RASFT는 현재 정책 (policy)이 어려움을 겪을 때는 전문가의 가이드를 강화하는 반면, 모델이 이미 신뢰할 수 있는 추론 동작을 보일 때는 경직된 모방을 완화하고 올바르게 스스로 생성한 궤적을 통합합니다. 유용한 추론 사전 지식 (reasoning priors)을 보존하기 위해, RASFT는 과도한 정책 드리프트 (policy drift)를 제한하도록 동결된 참조 모델 (frozen reference model)과 현재 정책 사이의 클리핑된 역비율 (clipped inverse ratio)을 추가로 도입합니다. 6개의 수학 추론 벤치마크와 2개의 코드 추론 벤치마크에서 여러 모델을 대상으로 수행한 실험 결과, RASFT가 SFT, SFT 변형 모델 및 대표적인 강화학습 (RL) 방법들보다 더 나은 전반적인 성능을 달성함을 보여줍니다. 코드는 https://github.com/zjd1sq/RASFT 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RASFT: 추론을 위한 Rollout-Adaptive 지도 미세 조정 (Supervised Fine-Tuning)

요약

핵심 포인트

댓글