X요약2026. 06. 20. 19:36

d-OPSD: Diffusion LLM을 위한 자기 증류 (Self-distillation)

요약

Diffusion LLM을 위한 최초의 온-폴리시 자기 증류(self-distillation) 프레임워크인 d-OPSD를 소개합니다. 단계별 감독을 통해 스스로 생성한 접미사로부터 학습하며, 기존 RLVR 방식보다 훨씬 적은 학습 단계로도 뛰어난 성능을 보입니다.

우리는 Diffusion LLM을 위한 최초의 온-폴리시 (on-policy) 자기 증류 (self-distillation) 프레임워크를 소개합니다.

이 프레임워크는 단계별 감독 (step-level supervision)을 통해 스스로 생성한 접미사 (suffixes)로부터 학습합니다.

이는 단 ~10%의 학습 단계만 사용하여 RLVR을 능가합니다. https://t.co/EVyc2g6YIM

AI 자동 생성 콘텐츠