X요약2026. 06. 03. 13:43

Draft-OPD, 초안 모델 (draft-model) 학습의 한계를 돌파하다

요약

Draft-OPD는 기존 오프라인 학습 방식의 한계를 극복하기 위해 온폴리시(on-policy) 학습 방식을 도입했습니다. 거부된 토큰을 재생하여 초안 모델이 스스로의 오류로부터 학습하게 함으로써 추측 디코딩의 효율을 극대화합니다.

표준적인 추측 디코딩 (speculative decoding)은 정체됩니다.

오프라인 학습 (Offline training)은 초안 오류 (draft error)로부터 결코 배우지 못합니다...

Draft-OPD는 온폴리시 (on-policy) 방식으로 학습합니다.

거부된 토큰 (rejected tokens)을 재생하여 초안 모델이 자신의 실수로부터 학습하도록 합니다.

이를 통해 사고 모델 (thinking models)에서 손실 없는 (lossless) 5배 이상의 속도 향상을 달성합니다.

AI 자동 생성 콘텐츠