Domino: Speculative Decoding에서 인과적 모델링 (Causal Modeling)과 자기회귀 초안 작성

요약

Domino는 Speculative Decoding 과정에서 인과적 모델링과 자기회귀 초안 작성을 활용하는 새로운 방법론을 제안합니다. 이를 통해 Qwen3 모델에서 최대 5.8배의 처리량 향상을 달 수 있음을 입증했습니다.

Qwen3에서 최대 5.8배의 처리량 (throughput) 속도 향상

/u/pmttyji 님이 r/LocalLLaMA 에 제출함
[link] [comments]

AI 자동 생성 콘텐츠