확산 언어 모델을 위한 상대 점수 정책 최적화 (Relative Score Policy Optimization for Diffusion
요약
확산 대규모 언어 모델(dLLMs)은 효율적인 텍스트 생성을 위한 유망한 방법이지만, 강화학습 기반의 사후 학습 적용에 어려움이 있습니다. 기존 정책 최적화 기법들은 dLLMs에서 다루기 쉬운 시퀀스 수준 로그 비율을 확보하기 어렵고, 이로 인해 높은 분산과 불안정한 훈련 문제를 야기합니다. 본 논문은 이러한 문제를 해결하는 새로운 방법(RSPO)을 제안하며, 이는 수학적 추론 및 계획 작업에서 강력한 성능 향상을 입증했습니다.
핵심 포인트
- dLLMs는 병렬적이고 효율적인 텍스트 생성을 가능하게 하는 유망한 모델입니다.
- 기존 강화학습 기반 정책 최적화 기법들은 dLLMs에 적용하기 어려운 시퀀스 수준 로그 비율 문제를 안고 있습니다.
- 이 문제는 높은 분산과 불안정한 RL 훈련을 초래합니다.
- 제안된 RSPO(Relative Score Policy Optimization)는 이러한 기술적 한계를 극복하는 새로운 접근 방식입니다.
- RSPO는 특히 수학적 추론 및 계획 작업에서 뛰어난 성능 향상을 보여주었습니다.
확산 대규모 언어 모델(dLLMs)은 병렬적이고 효율적인 텍스트 생성을 위한 유망한 경로를 제공하지만, 이들의 추론 능력을 향상시키기 위해서는 효과적인 사후 학습이 필요합니다. 검증 가능한 보상을 이용한 강화학습 (RLVR)은 이러한 목적에 자연스러운 선택이지만, 표준 정책 최적화의 핵심인 다루기 쉬운(tractable) 시퀀스 수준 로그 비율(sequence-level log-ratios)의 부재로 인해 dLLMs에 적용하는 것이 어렵습니다. 다루기 쉬운 시퀀스 수준 로그 비율의 부족은 기존 방법들이 높은 분산의 ELBO 기반 근사치에 의존하게 만들며, 여기서 높은 검증자 보상은 부정확한 점수 추정치를 증폭시키고 RL 훈련을 불안정하게 만듭니다. 이 문제를 극복하기 위해 우리는 제안합니다
수학적 추론 및 계획 벤치마크에 대한 실험 결과는 RSPO가 특히 계획 작업과 경쟁적인 수학적 추론 성능에서 강력한 이점을 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기