궤도 복귀: Diffusion Large Language Models의 추론을 위한 보상 및 상태 정렬
요약
Diffusion Large Language Models(dLLMs)의 추론 능력을 향상시키기 위해 강화학습 과정에서의 보상 및 상태 불일치 문제를 해결하는 PAPO 프레임워크를 제안합니다. SPR과 EHR 기술을 통해 생성 궤적과 정책 업데이트를 정렬하여 수학 및 논리 벤치마크에서 성능을 크게 개선했습니다.
핵심 포인트
- dLLM의 프로세스-보상 및 상태-궤적 불일치 문제 해결
- 단계별 신용 할당을 위한 SPR(Step-Aware Process Rewards) 도입
- 실제 궤적 재현을 위한 EHR(Entropy-Guided Historical Re-enactment) 적용
- GSM8K, MATH500 등 주요 벤치마크에서 유의미한 성능 향상 달성
강화학습 (RL)은 Diffusion Large Language Models (dLLMs)의 추론 능력을 향상시키는 데 엄청난 가능성을 가지고 있습니다. 그러나 발전 과정은 실제 생성 궤적 (generation trajectory)과 경사 업데이트 (gradient update) 프로세스 사이의 이중적인 불일치로 인해 근본적으로 제약을 받습니다: (i) 프로세스-보상 불일치 (Process-reward misalignment). 희소한 최종 보상 (Sparse, terminal rewards)이 생성 프로세스의 모든 중간 단계에 무차별적으로 할당되어, 변별력 있는 신용 할당 (credit assignment)을 제공하지 못합니다. (ii) 상태-궤적 불일치 (State-trajectory misalignment). 정책 업데이트 (Policy updates)가 종종 인위적이고 궤적을 벗어난 상태 (out-of-trajectory states)로 분산되어, 정보량이 적은 샘플에 경사 (gradients)를 낭비하게 됩니다. 이러한 한계를 해결하기 위해, 우리는 Process Aligned Policy Optimization (PAPO)를 소개합니다. 이는 희소한 최종 보상을 조밀한 단계별 신용 (dense, step-wise credit)으로 변환하는 단계 인식 프로세스 보상 (Step-Aware Process Rewards, SPR)과, 불확실성이 높은 단계에서 실제 궤적을 재현하는 엔트로피 가이드 역사적 재연 (Entropy-Guided Historical Re-enactment, EHR)을 통해 RL 업데이트를 dLLM의 생성 궤적과 총체적으로 정렬하는 새로운 프레임워크입니다. 네 가지 벤치마크에 대한 광범위한 실험 결과, PAPO는 GSM8K에서 최대 4.5%, MATH500에서 4.8%, Countdown에서 42.2%, Sudoku에서 16.1%의 성능 향상을 달성하며 베이스라인 모델들을 크게 능가함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기