arXiv논문2026. 05. 12. 18:52

DECO: End-Side 장치에서 높은 성능을 유지하는 희소 혼합 전문가 (Sparse Mixture-of-Experts)

요약

DECO는 엣지 장치(end-side device) 배포 환경에서 높은 성능과 효율성을 동시에 달성하기 위해 설계된 희소 혼합 전문가(Sparse Mixture-of-Experts, MoE) 아키텍처입니다. 기존 MoE 모델들이 큰 총 파라미터 크기로 인해 메모리 및 저장 병목 현상을 겪는 문제를 해결합니다. DECO는 학습 가능한 스케일링과 유연한 ReLU 기반 라우팅을 활용하여, 제한된 파라미터 예산 내에서 밀집 변환기(dense Transformers) 수준의 성능을 구현하는 것을 목표로 합니다.

핵심 포인트

DECO는 엣지 장치 배포에 최적화된 희소 MoE 아키텍처입니다.
기존 MoE 모델의 큰 총 파라미터 크기로 인한 메모리/저장 병목 현상을 해결합니다.
학습 가능한 전문가별 스케일링과 ReLU 기반 라우팅을 사용하여 효율성을 높였습니다.
제한된 파라미터 예산 내에서 밀집 변환기 수준의 높은 성능을 달성하는 것을 목표로 합니다.

혼합 전문가(Mixture-of-Experts, MoE)는 계산량을 비례적으로 증가시키지 않으면서 모델 용량(capacity)을 확장할 수 있지만, 그 방대한 총 파라미터 크기(total parameter footprint) 때문에 상당한 저장 및 메모리 접근 병목 현상(bottlenecks)이 발생합니다. 이는 높은 성능, 낮은 계산 비용, 그리고 작은 저장 오버헤드를 동시에 요구하는 효율적인 엣지 장치 배포(end-side deployment)를 방해합니다. 이러한 속성을 달성하기 위해, 우리는 DECO를 제시합니다. DECO는 동일한 총 파라미터 예산과 학습 토큰 하에서 밀집 변환기(dense Transformers)의 성능에 맞추도록 설계된 희소 MoE 아키텍처입니다. DECO는 학습 가능한 전문가별 스케일링으로 향상된 미분 가능하고 유연한 ReLU 기반 라우팅을 활용하여, ro

AI 자동 생성 콘텐츠

원문 바로가기

DECO: End-Side 장치에서 높은 성능을 유지하는 희소 혼합 전문가 (Sparse Mixture-of-Experts)

요약

핵심 포인트

댓글