arXiv논문2026. 06. 02. 10:13

하이브리드 검증 디코딩 (Hybrid Verified Decoding): Speculative Decoding에서의 검증 할당 학습

요약

Speculative Decoding의 효율성을 높이기 위해 캐시 기반 초안과 모델 기반 초안 중 최적의 소스를 선택하는 Hybrid Verified Decoding 기법을 제안합니다. 에이전트 중심 워크로드에서 EAGLE3를 능가하는 성능을 보였으며, 평균 2.73배의 속도 향상을 달성했습니다.

핵심 포인트

캐시와 모델 기반 초안 중 보상을 예측하여 선택하는 하이브리드 방식 제안
에이전트 중심 워크로드에서 특히 높은 효율성 입증
EAGLE3 대비 평균 2.73배의 속도 향상 기록
런타임 초안 선택이 추측적 디코딩의 핵심 방향임을 제시

대규모 언어 모델 (LLM) 생성은 자기회귀 디코딩 (autoregressive decoding)이 새로운 토큰마다 모델을 한 번씩 호출하기 때문에 여전히 비용이 많이 듭니다. Speculative decoding (추측적 디코딩)은 여러 개의 토큰을 초안(draft)으로 작성하고 이를 타겟 모델로 한 번에 검증함으로써 이 비용을 줄여주지만, 그 속도 향상(speedup)은 초안으로 작성된 토큰이 얼마나 많이 수락되는지에 달려 있습니다. 파라미터가 없는 초안 소스 (Parameter-free draft sources)는 구조화된 작업 및 에이전트 중심 워크로드 (agentic workloads)에서 낮은 비용으로 긴 연속 토큰을 제안할 수 있지만, 한 번의 생성 단계에서 유망해 보이는 캐시 일치 (cache match)가 다음 단계에서는 낮은 보상 (payoff)을 가질 수도 있습니다. 우리는 검증 전에 캐시 초안의 수락된 길이를 예측하고, 이 보상 추정치를 사용하여 캐시 검증과 모델 기반 초안 작성기 (model-based drafter) 사이에서 선택하는 Hybrid Verified Decoding을 제안합니다. 세 가지 LLM과 16개의 데이터셋에 대해 실험한 결과, Hybrid Verified Decoding은 에이전트 중심 워크로드에서 특히 효과적이었으며, 모든 설정에서 EAGLE3를 능가하며 평균 2.73배의 속도 향상을 기록했습니다. 우리의 분석은 프롬프트 구조가 어떻게 캐시 기회를 만드는지, 높은 보상을 주는 캐시 초안이 초안 공간의 작은 부분에 어떻게 집중되는지, 그리고 보상 가이드 선택 (payoff-guided selection)이 어떻게 순차적 디코딩 작업을 줄이는지를 보여주며, 런타임 초안 선택 (runtime draft selection)이 speculative decoding의 유망한 방향임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

하이브리드 검증 디코딩 (Hybrid Verified Decoding): Speculative Decoding에서의 검증 할당 학습

요약

핵심 포인트

댓글