
d-OPSD: Diffusion LLM을 위한 자기 증류 (Self-distillation)
요약
Diffusion LLM을 위한 최초의 온-폴리시 자기 증류(self-distillation) 프레임워크인 d-OPSD를 소개합니다. 단계별 감독을 통해 스스로 생성한 접미사로부터 학습하며, 기존 RLVR 방식보다 훨씬 적은 학습 단계로도 뛰어난 성능을 보입니다.
핵심 포인트
- Diffusion LLM을 위한 최초의 온-폴리시 자기 증류 프레임워크 제안
- 단계별 감독(step-level supervision)을 통한 학습 방식 채택
- 기존 RLVR 대비 약 10%의 학습 단계만으로 우수한 성능 달성
우리는 Diffusion LLM을 위한 최초의 온-폴리시 (on-policy) 자기 증류 (self-distillation) 프레임워크를 소개합니다.
이 프레임워크는 단계별 감독 (step-level supervision)을 통해 스스로 생성한 접미사 (suffixes)로부터 학습합니다.
이는 단 ~10%의 학습 단계만 사용하여 RLVR을 능가합니다. https://t.co/EVyc2g6YIM
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기