본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 20:06

모든 검증된 토큰을 활용하는 방법: MoE 스펠루세티브 디코딩을 위한 적응형 검증

요약

EVICT는 희소 혼합 전문가(MoE) 모델을 위한 적응형 검증 기법으로, 기존 트리 기반 스펠루세티브 디코딩의 높은 계산 비용 문제를 해결합니다. EVICT는 드래프트 트리를 효율적으로 절단하여 필수적인 접두사만 유지하고, 모든 검증된 토큰이 세분화된 신호를 활용해 후보를 평가함으로써 자원 낭비를 줄입니다. 이 방법은 MoE 백본과 결합되어 자기회귀 디코딩 대비 최대 2.35배의 속도 향상을 달성하며, 기존 최첨단 기법보다도 우수한 성능을 보여줍니다.

핵심 포인트

  • MoE 모델에서 스펠루세티브 디코딩 시 발생하는 높은 검증 비용 문제를 해결하는 적응형 방법론(EVICT)을 제안했습니다.
  • EVICT는 훈련이나 하이퍼파라미터 조정 없이, 드래프트 트리를 절단하여 필수적인 접두사만 유지함으로써 효율성을 높입니다.
  • 모든 검증된 토큰의 세분화된 신호를 활용해 후보를 평가하고, 이를 오프라인 프로파일링된 비용과 결합합니다.
  • 실험 결과, EVICT는 자기회귀 디코딩 대비 최대 2.35배의 속도 향상을 달성하며, 기존 최첨단 기법보다 우수한 성능을 보였습니다.

트리 기반 스펠루세티브 디코딩은 병렬로 여러 드래프트 후보를 검증함으로써 자기회귀 생성을 가속화하지만, 희소 혼합 전문가 (MoE) 모델에서는 이 장점이 약해집니다. 드래프트 트리가 커지면 다른 분기마다 다른 전문가가 활성화되어 활성화된 전문가의 합집합이 확대되고, 이로 인해 대상 측의 검증 비용이 크게 증가합니다.

우리는 EVICT 를 제안했습니다. 이는 훈련 없이, 하이퍼파라미터 없이, 손실 없는 MoE 스펠루세티브 디코딩을 위한 적응형 검증 방법입니다. EVICT 는 대상 검증 전에 드래프트 트리를 절단하고 비용 효율적인 접두사만 유지함으로써 모든 검증된 토큰이 세분화된 드래프트 신호를 활용하여 후보의 이점을 추정하며, 이를 오프라인 프로파일링된 검증 비용과 결합합니다. 또한 고성능 그래프 기반 서비스 프레임워크인 SGLang 과 높은 호환성을 유지합니다.

다양한 MoE 백본과 벤치마크에서 광범위한 실험을 통해 EVICT 는 자기회귀 디코딩에 비해 최대 2.35 배의 속도 향상을 달성하고, 최첨단 베이스라인인 EAGLE-3 에 비해 평균 1.21 배의 속도 향상과 검증 과정에서 불필요한 전문가 활성화를 크게 줄였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0