arXiv논문2026. 05. 29. 11:27

훈련 및 테스트 단계의 자기 개선을 위한 자기 학습 검증 (Self-Trained Verification)

요약

추론 모델의 자기 개선을 위해 훈련 및 테스트 단계에서 검증 성능을 높이는 STV(Self-Trained Verification) 방법론을 제안합니다. 모델이 참조 솔루션을 통해 오류를 식별하는 능력을 학습함으로써 수학 및 과학적 추론 성능을 획기적으로 향상시킵니다.

핵심 포인트

STV는 참조 솔루션을 활용해 검증기가 더 정확한 정보를 모방하도록 훈련함
수학 문제 정확도를 약 2배, 과학적 추론 성능을 최대 14배 향상시킴
ViL(Verifier-in-the-loop) 방식을 통해 RL 기반 생성기 성능을 추가 개선
검증기 없이 생성기 단독 성능도 표준 RL 대비 약 30% 상승함

규모 있는 자기 개선 (Self-improvement)은 추론 모델 (reasoning models)의 오랜 목표였으며, 이를 수행할 수 있는 두 가지 자연스러운 지점이 있습니다. 하나는 검증-정제 (verification-refinement, V-R) 루프를 통한 테스트 단계 (test time)이고, 다른 하나는 자기 학습 (self-training) 방법을 통한 훈련 단계 (training time)입니다. 두 방식 모두 동일한 병목 현상인 검증기 (verifier)에 의해 제약을 받습니다. V-R 루프는 검증기 점수는 상승하지만 정확도는 정체될 때, 그리고 피드백이 실행에 옮기기에는 너무 일반적일 때 정체됩니다. 자기 학습 역시 잘못 생성된 데이터가 훈련에 추가될 때 유사하게 실패합니다. 더 나은 검증은 이 두 가지를 모두 활성화할 수 있지만, 우리가 훈련하고자 하는 능력, 즉 스스로 생성한 오류를 잡아내는 능력은 훈련 신호 (training signal)가 부족합니다. 이 과제를 해결하기 위해, 우리는 자기 학습 검증 (self-trained verification, STV)을 제안합니다. 우리의 핵심 관찰 결과는, 모델이 혼자서는 이러한 오류를 잡아낼 수 없지만 참조 솔루션 (reference solution)이 주어지면 잡아낼 수 있다는 것입니다. 우리는 이러한 비대칭성을 감독 대상 (supervision target)으로 전환하여, 검증기가 더 많은 정보를 가진 자기 자신의 버전을 모방하도록 훈련합니다. 테스트 단계에서 STV는 어려운 문제들에 대해 V-R 루프를 실질적으로 개선하는 반면, 대안들 (예: SFT, 검증기 점수에 대한 RL, 그리고 메타 검증기 (meta-verifiers)조차도)은 그렇지 못합니다. STV는 어려운 수학 문제에서 정확도를 대략 두 배로 높이며, 과학적 추론 (scientific reasoning) 작업에서는 14배 (1.5%에서 21%로) 향상시킵니다. 훈련 단계에서는 추가적으로 V-R 루프 내에서 STV 검증기의 피드백을 사용하여 RL로 생성기 (generator)를 훈련하는데, 이를 검증기 루프 내 훈련 (verifier-in-the-loop training, ViL)이라고 부릅니다. RL로 수렴된 생성기에서 시작할 때, ViL은 pass@1에서 추가로 33%의 이득을 가져옵니다. 더욱 주목할 점은, 테스트 시 검증기를 사용하지 않는 생성기 단독 pass@1이 표준 RL이 수렴했던 지점보다 상대적으로 30% 상승한다는 것입니다. 따라서, 어려운 문제에 대한 추론의 다음 개척지는 우리가 검증을 위해, 그리고 검증과 함께 어떻게 훈련하느냐에 달려 있을 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

훈련 및 테스트 단계의 자기 개선을 위한 자기 학습 검증 (Self-Trained Verification)

요약

핵심 포인트

댓글