본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 20. 19:36

d-OPSD: Diffusion LLM을 위한 자기 증류 (Self-distillation)

요약

Diffusion LLM을 위한 최초의 온-폴리시 자기 증류(self-distillation) 프레임워크인 d-OPSD를 소개합니다. 단계별 감독을 통해 스스로 생성한 접미사로부터 학습하며, 기존 RLVR 방식보다 훨씬 적은 학습 단계로도 뛰어난 성능을 보입니다.

핵심 포인트

  • Diffusion LLM을 위한 최초의 온-폴리시 자기 증류 프레임워크 제안
  • 단계별 감독(step-level supervision)을 통한 학습 방식 채택
  • 기존 RLVR 대비 약 10%의 학습 단계만으로 우수한 성능 달성

우리는 Diffusion LLM을 위한 최초의 온-폴리시 (on-policy) 자기 증류 (self-distillation) 프레임워크를 소개합니다.

이 프레임워크는 단계별 감독 (step-level supervision)을 통해 스스로 생성한 접미사 (suffixes)로부터 학습합니다.

이는 단 ~10%의 학습 단계만 사용하여 RLVR을 능가합니다. https://t.co/EVyc2g6YIM

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0