[연구] JetSpec: 병렬 트리 초안 작성(Parallel Tree Drafting)을 통한 투기적 디코딩(Speculative
요약
JetSpec은 병렬 트리 초안 작성(Parallel Tree Drafting) 기술을 통해 LLM의 투기적 디코딩 성능을 최적화하는 연구입니다. 무손실 상태를 유지하며 MATH-500에서 최대 9.64배의 속도 향상을 달성하고, B200 GPU에서 약 1000 TPS의 추론 속도를 구현합니다.
핵심 포인트
- 인과적 병렬 트리 초안 작성을 통한 비용과 품질의 공동 최적화
- MATH-500 기준 최대 9.64배, 오픈 채팅 기준 4.58배 속도 향상
- CUDA 그래프 및 커널 최적화로 단일 B200에서 1000 TPS 달성
- 기존 투기적 디코딩의 인과성 유지와 비용 문제 간의 딜레마 해결
우리는 인과적 병렬 트리 초안 작성(causal parallel tree drafting)을 통해 초안 작성 비용(drafting cost)과 초안 작성 품질(drafting quality)을 공동 최적화함으로써, 투기적 디코딩(speculative decoding)이 LLM 생성 지연 시간(latency)을 극한까지 밀어붙일 수 있음을 발견했습니다.
JetSpec은 무손실(lossless) 상태를 유지하면서 MATH-500에서 최대 9.64배, 개방형 채팅(open-ended chat)에서 4.58배의 엔드 투 엔드(end-to-end) 속도 향상을 달성합니다. CUDA 그래프 및 커널 최적화(kernel optimizations)를 통해, JetSpec은 단일 B200 GPU에서 약 1000 TPS에 달하는 속도로 더욱 전환됩니다. ⚡️
기존의 투기적 디코딩(SD)은 딜레마에 직면해 있습니다:
- AR 스타일의 초안 헤드(draft heads)는 품질을 위해 인과성(causality)을 유지하지만, 초안 작성 비용이 트리의 깊이에 따라 증가합니다.
- 블록 확산(Block-diffusion) 스타일의 헤드는 한 번의 패스(pass)로 저렴하게 초안을 작성하지만, 브랜치(branches)가 종종 독립적으로 점수가 매겨지기 때문에 더 깊은 경로들이 서로 모순될 수 있습니다.
JetSpec은 단 한 번의 패스로 인과성을 보존하는 트리를 작성함으로써 이러한 속도를 가능하게 합니다. 🚀🌳
데모와 구축 방법은 저희 프로젝트 페이지를 확인하세요 👇
https://jetspec-project.github.io/jetspec-web/
💻 코드: https://github.com/hao-ai-lab/JetSpec
🌟 블로그: https://haoailab.com/blogs/parallel-tree-decoding/
- DFlash 및 AR 베이스라인과 JetSpec 비교.
- 추론 엔진(Inference engine)을 통해 평균 약 1000 TPS를 구현하는 JetSpec.
- 엔드 투 엔드(End-to-end) 속도 향상 비교.
submitted by /u/No_Yogurtcloset_7050
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기