Diffusion-GR2: 확산 생성 추론 재순위화기 (Diffusion Generative Reasoning Re-ranker)
요약
Diffusion-GR2는 생성 추론 재순위화기의 느린 추론 속도를 해결하기 위해 블록 확산 언어 모델을 활용한 새로운 방법론을 제안합니다. 변환 미세 조정(CFT)과 온-정책 증류(OPD)를 통해 구조적·분포적 격차를 해소하여 높은 정확도와 빠른 처리량을 동시에 달성했습니다.
핵심 포인트
- 블록 확산 모델을 통한 병렬 디코딩으로 추론 처리량 2.4~3.5배 향상
- CFT를 통해 유효한 순열(Permutation) 생성 문제 해결
- OPD와 강화학습을 결합하여 AR 모델 수준의 정확도 회복
- 자기회귀(AR) 모델의 속도 한계를 극복하는 효율적인 재순위화 기술
생성 추론 재순위화기 (Generative reasoning re-rankers)는 후보 목록을 재정렬하기 전에 사고의 사슬 (Chain-of-thought)을 생성함으로써 강력한 추천 정확도를 달성하지만, 추론 (Inference) 속도가 느립니다. 자기회귀 (Autoregressive, AR) 디코더는 추론 토큰 하나당 하나의 순차적인 순전파 (Forward pass)를 소모하며, 추론 흔적 (Reasoning trace)은 생성되는 순위보다 훨씬 길기 때문입니다. 이러한 비용을 줄이기 위해, 블록 확산 언어 모델 (Block-diffusion language models)은 몇 번의 노이즈 제거 (Denoising) 단계를 통해 여러 위치를 병렬로 디코딩하여 실질적으로 더 빠르지만, AR 재순위화기를 단순히 변환하는 것은 두 가지 정확도 격차를 발생시킵니다: (1) 구조적 격차 (Structural gap): 정답 위치들이 병렬로 노이즈가 제거되고 독립적으로 점수가 매겨지기 때문에, 디코더가 유효하지 않은 순위(중복, 누락 또는 집합 외 식별자)를 생성하게 됩니다. 이는 AR이 좌측-우측 마스킹 (Left-to-right masking)을 통해 피하는 문제입니다. (2) 분포적 격차 (Distributional gap): 고정된 교사 궤적 (Teacher trajectories)으로 변환된 모델을 미세 조정 (Fine-tuning)하는 것은 추론 시 모델 자신의 디코딩과 비교했을 때 오프-정책 (Off-policy) 상태이므로, 잔여 정확도 격차가 남게 됩니다. 속도 향상을 유지하면서 이 두 격차를 모두 해소하기 위해, 우리는 AR 추론 재순위화기 (GR2)를 블록 확산 재순위화기로 변환하는 레시피인 \textbf{Diffusion-GR2}를 제안합니다. 첫째, 변환 미세 조정 (Conversion fine-tuning, CFT)은 AR로 초기화된 확산 모델이 외부의 제약된 디코더 없이 스스로 정답을 유효한 순열 (Permutation)로 노이즈 제거하도록 적응시킵니다. 다음으로, 온-정책 증류 (On-policy distillation, OPD)를 통해 AR 교사로부터 얻은 밀집된 토큰별 타겟 (Dense per-token targets)을 사용하여 모델이 스스로 디코딩한 궤적에 대해 감독합니다. 마지막으로, OPD의 온-정책 정책 (On-policy policy) 위에 재순위화 보상 (Re-ranking reward)을 활용한 강화학습 (Reinforcement-learning, RL) 단계를 적용합니다. Amazon Beauty에 대한 실험 결과, Diffusion-GR2는 AR 재순위화기와 거의 대등한 수준으로 성능을 회복하는 동시에, 블록 병렬 디코딩 (Block-parallel decoding)을 통해 모델의 추론 출력 길이에서 디코딩 처리량 (Decode throughput)을 $2.4$--$3.5\times$ 높임을 입증했습니다. 절제 연구 (Ablations)를 통해 CFT가 변환 격차의 대부분을 회복하며, 온-정책 증류가 이를 AR 참조 모델 수준까지 더욱 좁힌다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기