Spec-AUF: Masked Block Drafter를 위한 훈련-추론 불일치 상황에서의 Accept-Until-Fail 학습

Speculative decoding (추측적 디코딩)은 타겟 모델이 왼쪽에서 오른쪽으로 검증하는 토큰 블록을 초안(draft)하여 자기회귀 생성 (autoregressive generation)을 가속화하며, 가장 길게 수락된 접두사 (prefix)만을 확정합니다. 블록 (DLM 스타일) drafter는 전체 블록을 병렬로 예측하는데, 이는 빠르지만 추론 시 첫 번째 거부 (rejection) 이후의 모든 토큰을 버림에도 불구하고, 모든 위치를 정답 연속 (gold continuation)에 대해 감독하는 전체 블록 교차 엔트로피 (cross-entropy)로 학습됩니다. 최근의 acceptance-aware 목적 함수들은 전체 블록 손실 (loss)의 가중치를 재조정함으로써 이를 보완합니다. 우리는 대신 감독이 수락된 접두사에 어떻게 집중되어야 하는지에 대한 동기로서 teacher-forced learning (교사 강제 학습)을 사용합니다. Mask-only 블록 drafter는 정답 접두사 조건화 (gold-prefix conditioning)를 위한 입력 측 채널이 없으므로, AUF는 drafter의 첫 번째 예측 실패 지점까지만 교차 엔트로피 지원 (cross-entropy support)을 유지함으로써 손실 측면에서 해당 접두사 민감도 감독을 근사합니다. AUF는 CE 지원에 대한 단일하고 분리된 변경 사항이며, 보조 목적 함수 (auxiliary objective), 검증기 롤아웃 (verifier rollouts), 또는 추론 파이프라인이나 정확성 계약 (exactness contract)의 변경이 필요하지 않습니다. Qwen3-8B 기반의 고정된 drafter 백본 및 서빙 설정 내에서, AUF는 6개 벤치마크의 평균인 DFlash drafter의 평균 방출 길이 $τ$를 2.40에서 2.61로 높였으며, 모든 벤치마크에서 성능 향상을 보였고, Domino의 두 갈래 헤드 (two-branch head)로도 전이되었습니다 (2.56에서 2.68로). 두 가지 발견이 상황을 더 명확하게 합니다: decay-only 베이스라인은 공유된 블록 마스크에서 더 높은 토큰 정확도에 도달하지만 디코딩 성능은 더 낮으며, DFlash의 경우 AUF가 지원을 절단하면 표준 지수적 위치 감쇠 가중치 (exponential position-decay weighting)가 경험적으로 무력해집니다.

Insights

Spec-AUF: Masked Block Drafter를 위한 훈련-추론 불일치 상황에서의 Accept-Until-Fail 학습

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실