BlockPilot: 확산 기반 투기적 디코딩 (Diffusion-based Speculative Decoding)을 위한 인스턴스 적응형

투기적 디코딩 (Speculative decoding)은 경량화된 초안 모델 (draft model)을 사용하여 후보 토큰을 병렬로 생성하고, 이를 타겟 모델이 검증함으로써 손실 없는 가속화를 가능하게 하여 추론 속도를 높입니다. 최근에는 확산 기반 투기적 디코딩 (diffusion-based speculative decoding)이 블록 수준의 확산 (block-level diffusion)을 통해 한 번의 순전파 (forward pass)당 여러 토큰을 생성함으로써 병렬성을 더욱 향상시켜 최첨단 (SOTA) 성능을 달성하고 있습니다. 그러나 기존 방법들은 고정된 추론 블록 크기를 채택하며, 모든 입력에 대해 균일한 최적 디코딩 전략이 적용된다고 가정합니다. 본 논문에서는 최적의 블록 크기가 샘플마다 다르며 투기적 디코딩 성능에 결정적인 역할을 하기 때문에, 이러한 가정이 최적이 아님을 보여줍니다. 또한, 이러한 값들은 훈련된 블록 크기 주변에 집중되는 명확한 국소 구조 (local structure)를 보이며, 이는 문제를 저차원의 구조화된 결정 공간으로 축소시킵니다. 이러한 통찰을 바탕으로, 우리는 prefilling 표현 (prefilling representation)으로부터 최적의 블록 크기를 예측하는 샘플 적응형 정책인 BlockPilot을 제안합니다. 구체적으로, 우리는 블록 크기 선택을 경량화된 정책 학습 (policy learning) 문제로 공식화하고, prefilling 단계의 표현을 기반으로 최적의 블록 크기를 예측하는 인스턴스 적응형 결정 메커니즘을 제안합니다. 예측은 prefilling 이후 단 한 번만 수행되므로 원활한 통합이 가능합니다. 광범위한 실험을 통해 우리의 방법이 플러그 앤 플레이 (plug-and-play) 방식이며, 최소한의 오버헤드만을 도입하면서도 효율성을 일관되게 개선함을 입증하였으며, 온도 T=1 환경의 Qwen3-4B에서 5.92의 수락 길이 (acceptance length)와 4.20배의 속도 향상을 달성했습니다.

arXiv : https://arxiv.org/abs/2606.31315
Full Paper : https://arxiv.org/pdf/2606.31315
GitHub : https://github.com/AMAP-ML/BlockPilot
submitted by /u/pmttyji
[link] [comments]

Insights

BlockPilot: 확산 기반 투기적 디코딩 (Diffusion-based Speculative Decoding)을 위한 인스턴스 적응형

요약

핵심 포인트

댓글

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

온디바이스 디퓨전 (On-Device Diffusion), Zed 1.0, 그리고 지금 즉시 Node.js를 패치해야 하는 5가지 이유

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

온디바이스 디퓨전 (On-Device Diffusion), Zed 1.0, 그리고 지금 즉시 Node.js를 패치해야 하는 5가지 이유