arXiv논문2026. 06. 17. 12:22

자기-미래로부터의 학습: dLLMs를 위한 온폴리시 자기 증류 (On-policy Self-distillation)

요약

dLLMs(확산 언어 모델)를 위한 최초의 온폴리시 자기 증류(OPSD) 프레임워크인 d-OPSD를 제안합니다. 기존 자기회귀 방식과 달리 접미사 조건화와 단계 수준 감독을 통해 dLLMs의 반복적 노이즈 제거 과정에 최적화된 학습 방식을 제공합니다.

핵심 포인트

dLLMs의 임의 순서 생성 방식에 맞춘 d-OPSD 프레임워크 제안
접미사 조건화를 통해 '자기-미래-경험'으로부터 학습하는 구조 설계
토큰 수준이 아닌 단계(step) 수준의 감독으로 노이즈 제거 과정과 일치
기존 RLVR 대비 약 10%의 샘플만으로도 우수한 성능 및 효율성 입증

온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 거대 언어 모델 (LLMs)의 사후 학습 (post-training)에 효과적임이 입증되었으나, 확산 언어 모델 (diffusion LLMs, dLLMs)에 대한 적용은 아직 탐구되지 않은 상태입니다. 기존의 OPSD 방법들은 본질적으로 자기회귀 (autoregressive) 중심적입니다. 이들은 토큰 수준의 발산 감독 (token-level divergence supervision)을 동반한 왼쪽에서 오른쪽으로의 접두사 조건화 (left-to-right prefix conditioning)를 통해 특권 정보 (privileged information)를 주입하는데, 이러한 설계는 dLLMs의 임의 순서 생성 (arbitrary-order generation) 방식과 근본적으로 충돌합니다. 우리는 dLLMs에 맞춤화된 최초의 OPSD 프레임워크인 d-OPSD를 소개합니다. 우리의 접근 방식은 두 가지 핵심적인 기여를 합니다. 첫째, 자기 생성 답변을 접미사 조건화 (suffix conditioning)로 사용하여 자기-교사 (self-teacher) 구축을 재구성함으로써, 학생 모델이 특권 접두사 (privileged prefixes)가 아닌 "자기-미래-경험 (self future-experience)"로부터 학습할 수 있도록 합니다. 둘째, 감독 (supervision)을 토큰 수준에서 단계 수준 (step-level)으로 전환하여, 훈련을 dLLMs의 반복적인 노이즈 제거 과정 (iterative denoising process)과 일치시킵니다. 네 가지 추론 벤치마크에 걸친 실험 결과, d-OPSD는 RLVR 및 SFT 베이스라인보다 일관되게 우수한 성능을 보였으며, RLVR 최적화 단계의 약 10%만을 필요로 하는 탁월한 샘플 효율성을 보여주어 dLLM 사후 학습을 위한 유망한 경로를 제시했습니다. 코드는 https://github.com/xingzhejun/d-OPSD 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기-미래로부터의 학습: dLLMs를 위한 온폴리시 자기 증류 (On-policy Self-distillation)

요약

핵심 포인트

댓글