Diffusion-GR2: 확산 생성 추론 재순위화기 (Diffusion Generative Reasoning Re-ranker)

생성 추론 재순위화기 (Generative reasoning re-rankers)는 후보 목록을 재정렬하기 전에 사고의 사슬 (Chain-of-thought)을 생성함으로써 강력한 추천 정확도를 달성하지만, 추론 (Inference) 속도가 느립니다. 자기회귀 (Autoregressive, AR) 디코더는 추론 토큰 하나당 하나의 순차적인 순전파 (Forward pass)를 소모하며, 추론 흔적 (Reasoning trace)은 생성되는 순위보다 훨씬 길기 때문입니다. 이러한 비용을 줄이기 위해, 블록 확산 언어 모델 (Block-diffusion language models)은 몇 번의 노이즈 제거 (Denoising) 단계를 통해 여러 위치를 병렬로 디코딩하여 실질적으로 더 빠르지만, AR 재순위화기를 단순히 변환하는 것은 두 가지 정확도 격차를 발생시킵니다: (1) 구조적 격차 (Structural gap): 정답 위치들이 병렬로 노이즈가 제거되고 독립적으로 점수가 매겨지기 때문에, 디코더가 유효하지 않은 순위(중복, 누락 또는 집합 외 식별자)를 생성하게 됩니다. 이는 AR이 좌측-우측 마스킹 (Left-to-right masking)을 통해 피하는 문제입니다. (2) 분포적 격차 (Distributional gap): 고정된 교사 궤적 (Teacher trajectories)으로 변환된 모델을 미세 조정 (Fine-tuning)하는 것은 추론 시 모델 자신의 디코딩과 비교했을 때 오프-정책 (Off-policy) 상태이므로, 잔여 정확도 격차가 남게 됩니다. 속도 향상을 유지하면서 이 두 격차를 모두 해소하기 위해, 우리는 AR 추론 재순위화기 (GR2)를 블록 확산 재순위화기로 변환하는 레시피인 \textbf{Diffusion-GR2}를 제안합니다. 첫째, 변환 미세 조정 (Conversion fine-tuning, CFT)은 AR로 초기화된 확산 모델이 외부의 제약된 디코더 없이 스스로 정답을 유효한 순열 (Permutation)로 노이즈 제거하도록 적응시킵니다. 다음으로, 온-정책 증류 (On-policy distillation, OPD)를 통해 AR 교사로부터 얻은 밀집된 토큰별 타겟 (Dense per-token targets)을 사용하여 모델이 스스로 디코딩한 궤적에 대해 감독합니다. 마지막으로, OPD의 온-정책 정책 (On-policy policy) 위에 재순위화 보상 (Re-ranking reward)을 활용한 강화학습 (Reinforcement-learning, RL) 단계를 적용합니다. Amazon Beauty에 대한 실험 결과, Diffusion-GR2는 AR 재순위화기와 거의 대등한 수준으로 성능을 회복하는 동시에, 블록 병렬 디코딩 (Block-parallel decoding)을 통해 모델의 추론 출력 길이에서 디코딩 처리량 (Decode throughput)을 $2.4$--$3.5\times$ 높임을 입증했습니다. 절제 연구 (Ablations)를 통해 CFT가 변환 격차의 대부분을 회복하며, 온-정책 증류가 이를 AR 참조 모델 수준까지 더욱 좁힌다는 것을 보여줍니다.

Insights

Diffusion-GR2: 확산 생성 추론 재순위화기 (Diffusion Generative Reasoning Re-ranker)

요약

핵심 포인트

댓글

6월 미국 경제 57,000개 일자리 추가, 예상치 하회; 실업률 4.2%

언제 멈추고 질문해야 하는지 아는 AI 에이전트 작성법

6월 고용 보고서 실시간 업데이트: 미국 노동 시장, '전력 질주'에서 '조깅' 수준으로 둔화

오늘의 은 가격, 7월 2일 목요일: 6월 고용 보고서 발표를 앞두고 60달러 돌파

언제 멈추고 질문해야 하는지 아는 AI 에이전트 작성법

6월 고용 보고서 실시간 업데이트: 미국 노동 시장, '전력 질주'에서 '조깅' 수준으로 둔화

오늘의 은 가격, 7월 2일 목요일: 6월 고용 보고서 발표를 앞두고 60달러 돌파