BlockPilot: 확산 기반 투기적 디코딩 (Diffusion-based Speculative Decoding)을 위한 인스턴스 적응형
요약
BlockPilot은 확산 기반 투기적 디코딩의 효율성을 높이기 위해 샘플별로 최적의 블록 크기를 예측하는 인스턴스 적응형 정책을 제안합니다. prefilling 단계의 표현을 활용해 최소한의 오버헤드로 추론 속도를 획기적으로 개선합니다.
핵심 포인트
- 고정된 블록 크기 대신 샘플마다 최적의 블록 크기를 결정하는 방식 제안
- prefilling 표현을 기반으로 한 경량화된 정책 학습 메커니즘 도입
- Qwen3-4B 모델에서 4.20배의 속도 향상 및 높은 수락 길이 달성
- 추가적인 오버헤드가 거의 없는 플러그 앤 플레이 방식의 기술
투기적 디코딩 (Speculative decoding)은 경량화된 초안 모델 (draft model)을 사용하여 후보 토큰을 병렬로 생성하고, 이를 타겟 모델이 검증함으로써 손실 없는 가속화를 가능하게 하여 추론 속도를 높입니다. 최근에는 확산 기반 투기적 디코딩 (diffusion-based speculative decoding)이 블록 수준의 확산 (block-level diffusion)을 통해 한 번의 순전파 (forward pass)당 여러 토큰을 생성함으로써 병렬성을 더욱 향상시켜 최첨단 (SOTA) 성능을 달성하고 있습니다. 그러나 기존 방법들은 고정된 추론 블록 크기를 채택하며, 모든 입력에 대해 균일한 최적 디코딩 전략이 적용된다고 가정합니다. 본 논문에서는 최적의 블록 크기가 샘플마다 다르며 투기적 디코딩 성능에 결정적인 역할을 하기 때문에, 이러한 가정이 최적이 아님을 보여줍니다. 또한, 이러한 값들은 훈련된 블록 크기 주변에 집중되는 명확한 국소 구조 (local structure)를 보이며, 이는 문제를 저차원의 구조화된 결정 공간으로 축소시킵니다. 이러한 통찰을 바탕으로, 우리는 prefilling 표현 (prefilling representation)으로부터 최적의 블록 크기를 예측하는 샘플 적응형 정책인 BlockPilot을 제안합니다. 구체적으로, 우리는 블록 크기 선택을 경량화된 정책 학습 (policy learning) 문제로 공식화하고, prefilling 단계의 표현을 기반으로 최적의 블록 크기를 예측하는 인스턴스 적응형 결정 메커니즘을 제안합니다. 예측은 prefilling 이후 단 한 번만 수행되므로 원활한 통합이 가능합니다. 광범위한 실험을 통해 우리의 방법이 플러그 앤 플레이 (plug-and-play) 방식이며, 최소한의 오버헤드만을 도입하면서도 효율성을 일관되게 개선함을 입증하였으며, 온도 T=1 환경의 Qwen3-4B에서 5.92의 수락 길이 (acceptance length)와 4.20배의 속도 향상을 달성했습니다.
arXiv : https://arxiv.org/abs/2606.31315
Full Paper : https://arxiv.org/pdf/2606.31315
GitHub : https://github.com/AMAP-ML/BlockPilot
submitted by /u/pmttyji
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기