arXiv논문2026. 06. 18. 11:00

REVES: 테스트 시간 스케일링을 위한 수정 및 검증 증강 학습

요약

REVES는 테스트 시간 스케일링을 위해 수정 및 검증 증강 학습을 제안하는 2단계 반복 프레임워크입니다. 성공적인 복구 과정 중의 'near-miss' 답변을 활용하여 모델이 오류를 식별하고 수정하는 능력을 극대화합니다. 코딩, 수학, 제약 충족 퍼즐 등 다양한 벤치마크에서 기존 RL 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

온라인 데이터 증강과 정책 최적화를 교대로 수행하는 2단계 프레임워크 제안
중간 단계의 고품질 실수(near-miss)를 수정 및 검증 학습 데이터로 활용
LiveCodeBench 및 수학 문제에서 기존 RL 대비 유의미한 성능 향상 달성
적은 롤아웃과 작은 베이스 모델로도 SOTA 성능 및 일반화 능력 확보

순차적 수정을 통한 테스트 시간 스케일링 (Test-time scaling)은 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 강력한 패러다임으로 부상했습니다. 그러나 표준적인 사후 학습 (post-training) 방법들은 주로 단일 샷 (single-shot) 목적 함수를 최적화하며, 이는 다단계 추론 역학 (multi-step inference dynamics)과 근본적인 불일치를 생성합니다. 최근 연구들이 이를 다회차 강화학습 (multi-turn RL)으로 다루고 있지만, 기존 방식들은 다단계 궤적 (multi-step trajectories)을 직접 최적화하기 때문에, 모델이 오류를 수정하며 배울 수 있는 중간 단계의 고품질 실수 (high-quality mistakes)를 추가로 활용하지 못합니다. 우리는 온라인 데이터/프롬프트 증강 (online data/prompt augmentation)과 정책 최적화 (policy optimization)를 교대로 수행하는 2단계 반복 프레임워크를 제안합니다. 성공적인 복구 궤적 내의 중간 단계("near-miss" 답변)를 분리된 수정 (revision) 및 검증 (verification) 프롬프트로 변환함으로써, 우리의 접근 방식은 효과적인 답변 변환과 오류 식별 모두에 학습을 집중시킵니다. 이 방식은 효율적인 오프-폴리시 (off-policy) 데이터 생성을 가능하게 하며, 표준 다회차 RL과 비교하여 긴 지평 샘플링 (long-horizon sampling)의 계산 오버헤드를 줄여줍니다. LiveCodeBench에서 공개된 테스트 케이스를 피드백으로 사용했을 때, RL 베이스라인 대비 +6.5포인트, 표준 다회차 학습 대비 +4.0포인트의 성능 향상을 관찰했습니다. 코딩을 넘어, 우리의 접근 방식은 훨씬 더 큰 진화적 탐색 (evolutionary search) 시스템보다 훨씬 적은 롤아웃 (rollouts)과 가장 작은 베이스 모델 (4B)을 사용하면서도, 이전에 보고된 원형 채우기 (circle packing) 문제의 SOTA 결과를 달성했습니다. 정답 검증 (ground-truth verification) 하에서의 수학 결과 또한 향상된 수정 능력을 추가로 확인시켜 줍니다. 또한, 정답이 전적으로 문제 제약 조건에 의해 정의되는 n-queens 및 mini-sudoku와 같은 분포 외 (out-of-distribution) 제약 충족 퍼즐로도 일반화됩니다. 코드는 https://github.com/yxliu02/REVES.git 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

REVES: 테스트 시간 스케일링을 위한 수정 및 검증 증강 학습

요약

핵심 포인트

댓글