Spec-AUF: Masked Block Drafter를 위한 훈련-추론 불일치 상황에서의 Accept-Until-Fail 학습
요약
Spec-AUF는 추측적 디코딩(Speculative Decoding) 과정에서 발생하는 훈련과 추론 사이의 불일치를 해결하기 위한 새로운 학습 방법론입니다. Masked Block Drafter가 첫 번째 예측 실패 지점까지만 손실을 계산하도록 하여, 수락된 접두사에 더 집중하도록 유도합니다.
핵심 포인트
- 훈련-추론 불일치 해결을 위한 Accept-Until-Fail(AUF) 학습법 제안
- 추가적인 보조 목적 함수나 추론 파이프라인 변경 없이 적용 가능
- DFlash drafter의 평균 방출 길이를 2.40에서 2.61로 향상
- 모든 벤치마크에서 디코딩 성능 향상 입증
Speculative decoding (추측적 디코딩)은 타겟 모델이 왼쪽에서 오른쪽으로 검증하는 토큰 블록을 초안(draft)하여 자기회귀 생성 (autoregressive generation)을 가속화하며, 가장 길게 수락된 접두사 (prefix)만을 확정합니다. 블록 (DLM 스타일) drafter는 전체 블록을 병렬로 예측하는데, 이는 빠르지만 추론 시 첫 번째 거부 (rejection) 이후의 모든 토큰을 버림에도 불구하고, 모든 위치를 정답 연속 (gold continuation)에 대해 감독하는 전체 블록 교차 엔트로피 (cross-entropy)로 학습됩니다. 최근의 acceptance-aware 목적 함수들은 전체 블록 손실 (loss)의 가중치를 재조정함으로써 이를 보완합니다. 우리는 대신 감독이 수락된 접두사에 어떻게 집중되어야 하는지에 대한 동기로서 teacher-forced learning (교사 강제 학습)을 사용합니다. Mask-only 블록 drafter는 정답 접두사 조건화 (gold-prefix conditioning)를 위한 입력 측 채널이 없으므로, AUF는 drafter의 첫 번째 예측 실패 지점까지만 교차 엔트로피 지원 (cross-entropy support)을 유지함으로써 손실 측면에서 해당 접두사 민감도 감독을 근사합니다. AUF는 CE 지원에 대한 단일하고 분리된 변경 사항이며, 보조 목적 함수 (auxiliary objective), 검증기 롤아웃 (verifier rollouts), 또는 추론 파이프라인이나 정확성 계약 (exactness contract)의 변경이 필요하지 않습니다. Qwen3-8B 기반의 고정된 drafter 백본 및 서빙 설정 내에서, AUF는 6개 벤치마크의 평균인 DFlash drafter의 평균 방출 길이 $τ$를 2.40에서 2.61로 높였으며, 모든 벤치마크에서 성능 향상을 보였고, Domino의 두 갈래 헤드 (two-branch head)로도 전이되었습니다 (2.56에서 2.68로). 두 가지 발견이 상황을 더 명확하게 합니다: decay-only 베이스라인은 공유된 블록 마스크에서 더 높은 토큰 정확도에 도달하지만 디코딩 성능은 더 낮으며, DFlash의 경우 AUF가 지원을 절단하면 표준 지수적 위치 감쇠 가중치 (exponential position-decay weighting)가 경험적으로 무력해집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기