본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 06. 13:57

Domino

요약

Domino는 자기회귀 초안 작성 과정과 인과적 모델링을 분리한 새로운 투기적 디코딩 프레임워크입니다. 병렬 백본과 경량 헤드를 결합하여 Qwen3 모델에서 최대 5.8배의 처리량 향상을 달성했습니다.

핵심 포인트

  • 자기회귀 초안 작성과 인과적 모델링의 분리
  • 병렬 백본과 접두사 인식 경량 헤드 구조
  • Qwen3 기준 최대 5.8배 처리량 향상

Domino

비싼 자기회귀 초안 작성 (Autoregressive drafting) 과정으로부터 인과적 모델링 (Causal modeling)을 분리하는 투기적 디코딩 (Speculative decoding) 프레임워크입니다.
병렬 백본 (Parallel backbone)이 블록을 생성하면, 경량 헤드 (Lightweight head)가 접두사 인식 의존성 (Prefix-aware dependencies)을 통해 이를 수정합니다.

Qwen3에서 최대 5.8배의 처리량 (Throughput) 속도 향상을 달성했습니다.

논문 (Paper):
https://huggingface.co/papers/2605.29707

모델 (Models):
https://huggingface.co/collections/Huang2020/domino

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0