MoECa: Diffusion Transformers에서 전문가 분해와 특징 재사용의 정렬
요약
MoECa는 Diffusion Transformers(DiT-MoE)의 추론 병목 현상을 해결하기 위해 전문가 브랜치 레벨의 특징 재사용을 제안하는 연구입니다. 타임스텝 간 중복성을 전문가 브랜치 단위로 분석하여 캐싱 효율을 극대화함으로써 추론 속도를 최대 2.83배 향상시켰습니다.
핵심 포인트
- DiT-MoE의 타임스텝 간 중복성을 전문가 브랜치 레벨에서 정의
- 브랜치 레벨 특징 재사용을 통한 효율적인 캐싱 프레임워크 MoECa 제안
- 전문가 인식 적응형 제어 및 MoE-어텐션 경로 간 동기화된 캐시 업데이트 도입
- 기존 방식 대비 우수한 속도-품질 트레이드오프 및 최대 2.83배 속도 향상
Mixture-of-Experts (MoE)를 적용한 Diffusion Transformers (DiT-MoE)는 희소 활성화 (sparse activation) 하에서 모델 용량을 향상시키지만, 확산 추론 (diffusion inference)은 여전히 타임스텝 (timesteps) 간의 중복 계산으로 인해 병목 현상이 발생합니다. 기존의 캐싱 (caching) 방법들은 주로 토큰 레벨 (token level)에서 작동하는데, 이는 각 토큰 업데이트가 내부적으로 여러 라우팅된 전문가 브랜치 (routed expert branches)로 분해되는 DiT-MoE에서는 최적의 성능을 내지 못합니다. 우리의 분석에 따르면, DiT-MoE에서의 타임스텝 간 중복성은 전체 토큰 레벨보다 전문가 브랜치 (expert-branch) 레벨에서 더 잘 특징지어집니다. 이러한 관찰을 바탕으로, 우리는 타임스텝 간 브랜치 레벨 특징 재사용 (branch-level feature reuse)을 수행하는 미세 조정된 캐싱 프레임워크인 MoECa를 제안합니다. MoECa는 또한 안정적인 중간 상태를 유지하기 위해 전문가 인식 적응형 제어 (expert-aware adaptive control)와 MoE 및 어텐션 (attention) 경로 간의 동기화된 캐시 업데이트를 도입합니다. 다양한 DiT-MoE 모델에 대한 실험 결과, MoECa는 이전 캐싱 방법들보다 일관되게 더 나은 속도-품질 트레이드오프 (speed-quality trade-off)를 달성하며, 최대 2.83$ imes$의 추론 속도 향상과 최소한의 품질 저하를 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기