
Draft-OPD, 초안 모델 (draft-model) 학습의 한계를 돌파하다
요약
Draft-OPD는 기존 오프라인 학습 방식의 한계를 극복하기 위해 온폴리시(on-policy) 학습 방식을 도입했습니다. 거부된 토큰을 재생하여 초안 모델이 스스로의 오류로부터 학습하게 함으로써 추측 디코딩의 효율을 극대화합니다.
핵심 포인트
- 온폴리시 학습을 통한 초안 모델의 오류 교정
- 거부된 토큰 재생을 통한 학습 데이터 활용
- 사고 모델에서 5배 이상의 속도 향상 달성
- 기존 오프라인 학습의 한계인 초안 오류 문제 해결
Draft-OPD, 초안 모델 (draft-model) 학습의 한계를 돌파하다
표준적인 추측 디코딩 (speculative decoding)은 정체됩니다.
오프라인 학습 (Offline training)은 초안 오류 (draft error)로부터 결코 배우지 못합니다...
Draft-OPD는 온폴리시 (on-policy) 방식으로 학습합니다.
거부된 토큰 (rejected tokens)을 재생하여 초안 모델이 자신의 실수로부터 학습하도록 합니다.
이를 통해 사고 모델 (thinking models)에서 손실 없는 (lossless) 5배 이상의 속도 향상을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기