ELDR: PD-분리형 MoE 서빙을 위한 전문가 지역성 인식 디코딩 라우팅 (Expert-Locality-Aware Decode

ELDR: PD-분리형 (PD-Disaggregated) MoE 서빙을 위한 전문가 지역성 인식 디코딩 라우팅 (Expert-Locality-Aware Decode Routing)

분리형 (Disaggregated) MoE 서빙을 최적화합니다.

프리필 (Prefill) 단계의 전문가 시그니처 (Expert signatures)를 사용하여 디코딩 (Decode) 요청을 라우팅합니다.

대규모 vLLM 환경에서 중앙값 TPOT (Time Per Output Token)를 5.9–13.9% 절감합니다.

논문:
https://paperswithcode.co/paper/2607.004
66
…
Hugging Face 논문 페이지에 의견을 공유해 주세요.

PerceptionRubrics가 멀티모달 (Multimodal) 평가를 재정의합니다

10,000개 이상의 원자적 루브릭 (Atomic rubrics)을 사용하여 1,038개의 밀집 이미지 (Dense images)를 감사하는 루브릭 기반 벤치마크입니다. 게이트형 점수 산정 (Gated scoring) 방식은 치명적인 환각 (Hallucinations)에 엄격한 패널티를 부여하며, 이를 통해 오픈 소스 모델과 독점 (Proprietary) 모델 간의 8% 인지 격차 (Perception gap)를 밝혀냅니다. ICML 2026.

Insights

ELDR: PD-분리형 MoE 서빙을 위한 전문가 지역성 인식 디코딩 라우팅 (Expert-Locality-Aware Decode

요약

핵심 포인트

댓글

OpenRouter vs LiteLLM vs Portkey vs 관리형 OpenAI 호환 게이트웨이 비교

노이즈에서 신호로: 시장 인텔리전스를 위한 FOCUS Online "Schlagzeilen" 파이프라인 자동화

AI 에이전트의 구조적 회복탄력성 (Structural Resilience): 생성과 실행 사이의 줄일 수 없는 간극 유지하기

iOS 27의 LanguageModel 프로토콜로 Claude와 Gemini도 교체하기

노이즈에서 신호로: 시장 인텔리전스를 위한 FOCUS Online "Schlagzeilen" 파이프라인 자동화

AI 에이전트의 구조적 회복탄력성 (Structural Resilience): 생성과 실행 사이의 줄일 수 없는 간극 유지하기

iOS 27의 LanguageModel 프로토콜로 Claude와 Gemini도 교체하기