모든 검증된 토큰을 활용하는 방법: MoE 스펠루세티브 디코딩을 위한 적응형 검증

트리 기반 스펠루세티브 디코딩은 병렬로 여러 드래프트 후보를 검증함으로써 자기회귀 생성을 가속화하지만, 희소 혼합 전문가 (MoE) 모델에서는 이 장점이 약해집니다. 드래프트 트리가 커지면 다른 분기마다 다른 전문가가 활성화되어 활성화된 전문가의 합집합이 확대되고, 이로 인해 대상 측의 검증 비용이 크게 증가합니다.

우리는 EVICT 를 제안했습니다. 이는 훈련 없이, 하이퍼파라미터 없이, 손실 없는 MoE 스펠루세티브 디코딩을 위한 적응형 검증 방법입니다. EVICT 는 대상 검증 전에 드래프트 트리를 절단하고 비용 효율적인 접두사만 유지함으로써 모든 검증된 토큰이 세분화된 드래프트 신호를 활용하여 후보의 이점을 추정하며, 이를 오프라인 프로파일링된 검증 비용과 결합합니다. 또한 고성능 그래프 기반 서비스 프레임워크인 SGLang 과 높은 호환성을 유지합니다.

다양한 MoE 백본과 벤치마크에서 광범위한 실험을 통해 EVICT 는 자기회귀 디코딩에 비해 최대 2.35 배의 속도 향상을 달성하고, 최첨단 베이스라인인 EAGLE-3 에 비해 평균 1.21 배의 속도 향상과 검증 과정에서 불필요한 전문가 활성화를 크게 줄였습니다.

Insights

모든 검증된 토큰을 활용하는 방법: MoE 스펠루세티브 디코딩을 위한 적응형 검증

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화