VIA-SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증
요약
본 논문은 추측 디코딩(Speculative Decoding, SD)의 효율성을 높이기 위해 모델 내부 라우팅을 활용한 새로운 검증 방식을 제안합니다. VIA-SD는 토큰의 신뢰도에 따라 직접 수용, 슬림 서브모델 재생성, 전체 모델 검증 등 다단계 처리를 수행하여 LLM 추론 비용을 획기적으로 줄입니다.
핵심 포인트
- VIA-SD는 내부 라우팅 기반으로 검증 과정을 최적화합니다.
- 토큰 신뢰도에 따라 계층적인 처리 방식을 적용합니다.
- 강력한 SD 기준선 대비 10~20%의 속도 향상을 제공합니다.
- 기존 SD 프레임워크와 호환되어 확장성이 높습니다.
추측 디코딩(Speculative Decoding, SD)은 경량의 드래프터(drafter)가 후보를 생성하고 대형 검증기(verifier)가 이를 병렬로 검증함으로써 LLM의 높은 추론 비용 문제를 해결합니다. 기존의 드래프트-검증 방식은 이진 결정(binary decisions), 즉 수용 또는 완전 재계산만을 사용합니다. 그러나 우리는 많은 거부된 토큰들이 전체 검증기 대신, 모델 내부 라우팅을 통해 파생된 슬림 서브모델(slim submodel)에 의해 올바르게 검증될 수 있다는 것을 발견했습니다. 이는 우리의 슬림 검증기가 적절한 수준의 검증 자원을 필요로 하는 토큰들을 처리하여 값비싼 대형 모델 호출 횟수를 줄이도록 동기를 부여합니다. 우리는 라우팅된 슬림 검증기를 사용하는 다단계 프레임워크인 추측 디코딩을 위한 모델 내부 라우팅 기반 검증(Verification via Intra-Model Routing for Speculative Decoding, VIA-SD)을 제안합니다. 드래프트 토큰은 계층적으로 처리됩니다: 높은 신뢰도의 경우 직접 수용, 중간 신뢰도의 경우 슬림 검증기 재생성, 불확실한 경우 전체 모델 검증이 이루어집니다. 네 가지 대표적인 태스크와 여러 모델 패밀리 전반에 걸쳐 VIA-SD는 거부율을 0.100.22만큼 줄이고 강력한 SD 기준선 대비 1020%의 속도 향상을 제공하며, 드래프팅이 없는 디코딩 방식 대비 2.5~3배의 가속도를 달성합니다. 더욱이 VIA-SD는 기존 SD 프레임워크를 수정하지 않고 호환됩니다. 우리의 결과는 다단계 SD가 확장 가능하고 효율적인 LLM 추론을 위한 일반적인 패러다임을 시사합니다. 프로젝트 페이지: https://zju-xyc.github.io/VIA-SD-Project-Page/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기