
ELDR: PD-분리형 MoE 서빙을 위한 전문가 지역성 인식 디코딩 라우팅 (Expert-Locality-Aware Decode
요약
PD-분리형 MoE 서빙 최적화를 위한 전문가 지역성 인식 디코딩 라우팅 기술인 ELDR를 소개합니다. 프리필 단계의 전문가 시그니처를 활용해 디코딩 요청을 라우팅함으로써 vLLM 환경에서 TPOT을 최대 13.9% 절감합니다.
핵심 포인트
- PD-분리형 MoE 서빙 최적화 기술 제안
- 프리필 단계의 전문가 시그니처 기반 라우팅 활용
- vLLM 환경에서 중앙값 TPOT 5.9–13.9% 절감
ELDR: PD-분리형 (PD-Disaggregated) MoE 서빙을 위한 전문가 지역성 인식 디코딩 라우팅 (Expert-Locality-Aware Decode Routing)
분리형 (Disaggregated) MoE 서빙을 최적화합니다.
프리필 (Prefill) 단계의 전문가 시그니처 (Expert signatures)를 사용하여 디코딩 (Decode) 요청을 라우팅합니다.
대규모 vLLM 환경에서 중앙값 TPOT (Time Per Output Token)를 5.9–13.9% 절감합니다.
논문:
https://paperswithcode.co/paper/2607.004
66
…
Hugging Face 논문 페이지에 의견을 공유해 주세요.
PerceptionRubrics가 멀티모달 (Multimodal) 평가를 재정의합니다
10,000개 이상의 원자적 루브릭 (Atomic rubrics)을 사용하여 1,038개의 밀집 이미지 (Dense images)를 감사하는 루브릭 기반 벤치마크입니다. 게이트형 점수 산정 (Gated scoring) 방식은 치명적인 환각 (Hallucinations)에 엄격한 패널티를 부여하며, 이를 통해 오픈 소스 모델과 독점 (Proprietary) 모델 간의 8% 인지 격차 (Perception gap)를 밝혀냅니다. ICML 2026.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기