arXiv논문2026. 05. 28. 13:21

Soft-SVeRL: 소프트 보상(Soft Rewards)을 이용한 자기 검증 강화학습 (Self-Verified Reinforcement

요약

부분적으로만 검증 가능한 작업에서 LLM의 성능을 높이기 위한 Soft-RLVR 및 Soft-SVeRL 프레임워크를 제안합니다. 체크리스트 기반의 소프트 보상을 통해 희소한 보상 신호를 밀도 높은 부분 점수로 전환하며, 자기 검증 시 발생하는 보상 인플레이션을 방지하는 안정화 기법을 다룹니다.

핵심 포인트

체크리스트 기반 소프트 보상으로 밀도 높은 학습 신호 제공
부분 점수 도입 시 발생하는 노이즈와 보상 트레이드오프 분석
자기 검증 시 발생하는 보상 인플레이션 방지를 위한 안정화 필요성
IFEval 점수를 최대 11.1포인트 향상시키는 성능 입증

검증 가능한 보상으로부터의 강화학습 (Reinforcement Learning from Verifiable Rewards, RLVR)은 정답 여부를 자동으로 확인할 수 있는 수학 및 코드와 같은 영역에서 언어 모델의 성능을 향상시켜 왔습니다. 그러나 많은 중요한 작업들은 부분적으로만 검증 가능합니다. 즉, 프롬프트(Prompt)에 여러 요구사항이 포함되어 있거나, 응답이 그중 일부는 충족하지만 전부를 충족하지 못할 수 있으며, 혹은 단일한 참조 정답이 존재하지 않을 수도 있습니다. 우리는 분해된 학습형 검증 신호로부터 강화학습을 수행하는 프레임워크인 Soft-RLVR을 소개합니다. Soft-RLVR은 각 프롬프트를 원자적 요구사항(Atomic requirements)의 체크리스트로 변환하고, LLM 검증기(Verifier)를 사용하여 후보 응답을 항목별로 점수화하며, 그 결과로 나온 소프트 보상 (Soft reward)을 통해 학습합니다. 체크리스트 기반 보상은 희소한 합격/불합격 (Pass/fail) 감독을 더 밀도 높은 부분 점수 (Partial-credit) 신호로 전환하지만, 동시에 트레이드오프 (Tradeoff)를 유발합니다. 항목 수준의 판단을 평균화하면 검증기의 노이즈 (Noise)를 줄일 수 있지만, 부분 점수가 불완전한 응답에 보상을 줄 수도 있기 때문입니다. 우리는 이 트레이드오프를 공식화하고, 체크리스트 기반 검증이 전체론적 검증 (Holistic verification)보다 더 신뢰할 수 있는 RL 학습 신호를 제공하는 조건을 식별합니다. 나아가 우리는 정책 (Policy)이 검증기 역할도 수행하는 Soft-RLVR의 자기 검증 변형인 Soft-SVeRL을 소개합니다. 우리는 자기 검증 (Self-verification)이 지나치게 관대한 자기 판단으로 인해 보상 인플레이션 (Reward inflation)이 발생하기 쉬우며, 이러한 붕괴를 방지하기 위해 명시적인 안정화 (Stabilization)가 필요함을 보여줍니다. 규칙 기반의 정답 평가 (Ground-truth evaluation)가 이루어지는 통제된 지시 이행 (Instruction-following) 환경에서, 체크리스트 기반의 Soft-RLVR은 학습된 검증기 보상만을 사용하여 IFEval 점수를 최대 11.1포인트 향상시켰습니다. 우리의 실험은 검증기의 품질과 체크리스트의 품질 모두가 다운스트림 RL 결과에 영향을 미치며, 효과적인 자기 검증을 위해서는 명시적인 안정화가 필수적임을 추가로 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Soft-SVeRL: 소프트 보상(Soft Rewards)을 이용한 자기 검증 강화학습 (Self-Verified Reinforcement

요약

핵심 포인트

댓글