arXiv논문2026. 05. 05. 16:52

KL 정규화된 RLVR 를 위한 참조 샘플링 볼츠만 투영: 목표 일치 가중치 SFT, 유한 한샷 갭, 정책 거울 하강

요약

본 논문은 검증 가능한 보상을 가진 온라인 강화 학습(RLVR)의 효율성을 높이기 위해 참조 샘플링 볼츠만 투영을 제안합니다. 기존 SFT 방식이 가중치 가능도를 제대로 지정하지 못하는 문제를 해결하기 위해, 이 연구는 유도 정책이 고정 참조 KL 정규화된 RLVR 최적화자와 일치하도록 하는 '목표 일치 가중치' SFT 목적을 식별합니다. 이를 통해 밀도 비율 가중치가 볼츠만 투영으로 단순화되며, BOLT라는 경험적 추정자가 제안됩니다. 또한 유한 한샷 분석을 통해 커버리지 부족 문제와 최적화의 근사 오차를 분리하고, 적응적 샘플링이 필요할 때 KL 정책 거울 하강 방식을 제시합니다.

핵심 포인트

RLVR의 병목 현상 해결: 기존 SFT는 가중치 가능도를 제대로 지정하지 못하는 문제를 해결하기 위해 새로운 '목표 일치 가중치' SFT 목적을 정의했습니다.
볼츠만 투영 및 BOLT: 참조 샘플링 하위 클래스에서 밀도 비율 가중치는 볼츠만 투영으로 단순화되며, 이를 추정하는 경험적 방법인 BOLT가 제안되었습니다.
유한 한샷 분석의 기여: 유한 한샷 분석을 통해 커버리지 부족 문제와 최적화 오차를 분리하여, 추가 SFT 에포크의 한계를 명확히 했습니다.
KL 정책 거울 하강: 참조 정책 커버리지 부족이 발생할 때, 적응적 샘플링을 위해 KL 정책 거울 하강(KL policy mirror descent) 방식을 적용합니다.

검증 가능한 보상 (verifiable rewards) 을 가진 온라인 강화 학습 (RLVR) 은 검증 가능한 결과를 확장 가능한 훈련 신호로 전환하지만, 롤아웃 생성 (rollout generation), 검증자 점수 (verifier scoring), 및 참조 정책 평가 (reference-policy evaluations) 를 최적화 경로에 유지합니다. 사전 계산된 롤아웃에 대한 정적 가중치 감독 미세 조정 (SFT) 이 이 병목 현상을 제거하는 것처럼 보이지만, 보상만으로 가중치 가능도 (weighted likelihood) 가 지정되지 않습니다: 그 샘플러와 가중치는 피팅되는 정책을 유도합니다. 이 논문은 유도 정책이 고정 참조 KL 정규화된 RLVR 최적화자와 일치하는 참조 샘플링 가중치 SFT 목적을 식별합니다. 최적화자는 검증자 보상으로 참조 정책을 지수적으로 기울인 표준 볼츠만 목표 정책 (Boltzmann target policy) 입니다. 가중치 SFT 유도 정책을 이 목표에 맞추면 밀도 비율 가중치 (density-ratio weights) 를 강제하며, 참조 샘플링 하위 클래스에서 이는 프롬프트 스케일링까지 고유하게 프롬프트 정규화된 볼츠만 가중치 $\ ext{exp}(r(x,y)/\beta)/Z(x)$ 로 줄어듭니다. BOLT 는 이 투영의 경험적 추정자입니다. 유한 한샷 분석은 정확한 저장 지원 가격 (exact stored-support price) $\beta\log(1/\pi^*(S_N\mid x))$ 를 분할 추정, 유효 샘플 크기 분산, 일반화, 최적화 및 근사 오차와 분리합니다. 이 분해는 추가 SFT 에포크가 참조 정책 커버리지 부족을 복구할 수 없는 이유를 설명하고 온도--커버리지--분산 프론티어를 노출합니다. 커버리지가 적응적 샘플링이 필요할 때, 새로 고침된 볼츠만 투영은 KL 정책 거울 하강 (KL policy mirror descent) 이 됩니다. 정확한 거울 단계에서 추가적인 드리프트로 유한 내부 해들이 들어옵니다. 단일 실행 Qwen 실험은 목표 일치 가중치, 한샷 포화, 새로 고침된 샘플러 이득, 최적화 시간 절약에 대한 투영 증거를 제공합니다 (표시된 단일 실행 범위 내에서).

AI 자동 생성 콘텐츠

원문 바로가기

KL 정규화된 RLVR 를 위한 참조 샘플링 볼츠만 투영: 목표 일치 가중치 SFT, 유한 한샷 갭, 정책 거울 하강

요약

핵심 포인트

댓글