블록 검증을 통한 투기적 확산 가속화
요약
본 논문은 LLM 추론 가속화 기법인 투기적 디코딩(Speculative Decoding)을 연속 확산 모델에 효율적으로 적용하는 새로운 방법을 제안합니다. 기존 방식의 계산적 비효율성을 해결하기 위해, 블록 검증 메커니즘을 확산 모델에 성공적으로 구현했습니다.
핵심 포인트
- 투기적 디코딩은 LLM 추론 속도를 높이는 기법입니다.
- 연속 확산 모델에 투기적 샘플링 적용이 어려웠습니다.
- 새로운 접근 방식은 블록 검증을 통해 효율성을 확보했습니다.
- Free Drafter는 추가 훈련 없이 기존 대비 최대 6.3% 속도 향상을 제공합니다.
Speculative decoding은 드래프트 모델(draft model)을 사용하여 토큰을 생성하고, 출력값이 목표 분포와 일치하는지 확인하는 수용-거부 방식(acceptance-rejection scheme)을 통해 LLM 추론 속도를 높입니다. 이를 연속 확산(continuous diffusions)에 적용하는 것은 어렵습니다. 왜냐하면 투기적 샘플링은 잔여 분포(residual distribution)에서 추출해야 하기 때문입니다. 이 과정은 이산 공간에서는 간단하지만, 연속 공간에서 이 잔여분산을 효율적으로 샘플링하는 것은 쉽지 않습니다. 결과적으로, 기존의 확산 모델 적용 방식들은 계산적으로 비효율적인 샘플링 기법을 사용하거나 다른 방식을 의존하고 있습니다. 본 논문에서는 확산 모델에 원래의 투기적 샘플링 메커니즘을 효율적으로 구현하는 새로운 방식을 소개합니다. 저희 접근 방식은 현재 방법들보다 중요한 이점을 제공하는데, 바로 LLM에서 블록 검증(block verification)을 확산 모델로 적용할 수 있게 한다는 점입니다. 이는 드래프트의 수용률(acceptance rate)을 증명적으로 향상시킵니다. 나아가, 훈련이 필요 없는 확산 모델을 위한 휴리스틱 자체 투기적 드래프터인 Free Drafter를 공식화하고 분석했습니다. 블록 검증을 가능하게 함으로써, 저희 Free Drafter는 추가적인 훈련 없이 기존의 병렬 검증 패스(parallel verification pass) 이상의 미미한 오버헤드로 기존 투기적 방법들 대비 최대 6.3%의 속도 향상을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기