효율적인 MoE 기반 LLM 추론을 위한 시공간적 전문가 프리페칭 프레임워크
요약
MoE 기반 LLM의 추론 시 발생하는 전문가 로딩 오버헤드를 해결하기 위한 ST-MoE 프레임워크를 제안합니다. 전문가 활성화 패턴의 시공간적 상관관계를 분석하여, 예측 메커니즘과 하드웨어 설계를 통해 전문가를 선제적으로 로딩함으로써 추론 성능과 에너지 효율을 높입니다.
핵심 포인트
- MoE 모델의 불규칙한 전문가 활성화로 인한 로딩 지연 문제 분석
- 인접 레이어 및 연속 토큰 간의 전문가 요청 상관관계 발견
- 시공간적 전문가 프리페칭을 위한 ST-MoE 프레임워크 제안
- 경량 런타임 예측 메커니즘과 재구성 가능한 하드웨어 설계 결합
- 추론 정확도 유지 및 에너지 효율성/성능 대폭 향상
Qwen 및 DeepSeek과 같은 Mixture-of-Experts (MoE) 기반 대규모 언어 모델 (LLMs)은 최근 계산 비용을 비례적으로 증가시키지 않으면서 모델 용량을 개선하는 효과적인 접근 방식으로 부상했습니다. 밀집형 (dense) LLM의 기존 피드포워드 네트워크 (feed-forward network)를 일련의 전문가 (experts) 세트로 교체하고 각 입력 토큰에 대해 그중 일부 서브셋만을 활성화함으로써, MoE 모델은 토큰당 계산량을 상대적으로 관리 가능한 수준으로 유지하면서 전체 파라미터 수를 크게 증가시킵니다. 그러나 이러한 동적이고 불규칙한 전문가 활성화 패턴은 추론 과정에서 상당한 전문가 로딩 오버헤드 (expert loading overhead)를 유발하는데, 이는 필요한 전문가가 토큰 의존적 라우팅 (routing) 결과에 따라 필요할 때마다 호출되어야 하기 때문입니다. 결과적으로 전문가 로딩 지연 시간 (latency)은 성능 및 에너지 비효율성의 주요 원인이 됩니다. 이를 위해, 우리는 먼저 언어 이해 및 코드 생성(code generation)을 포함한 다양한 MoE 기반 LLM 및 애플리케이션에서의 전문가 선택 동작에 대한 종합적인 분석을 수행합니다. 우리의 분석에 따르면, 각 애플리케이션 도메인 내에서 전문가 요청은 인접한 MoE 레이어(layers)와 연속적인 디코딩 토큰(decoding tokens) 모두에 걸쳐 강한 상관관계를 보이며, 이는 향후 전문가 활성화를 예측 가능하게 만듭니다. 이러한 통찰을 바탕으로, 우리는 전문가 로딩을 진행 중인 계산과 중첩시키기 위해 사용 전에 전문가를 선제적으로 스테이징(staging)하는 시공간적 전문가 프리페칭 (spatio-temporal expert prefetching) 프레임워크인 ST-MoE를 제안합니다. ST-MoE는 원래의 라우팅 동작을 보존하는 경량 런타임 예측 메커니즘과 동적 전문가 프리페칭을 효율적으로 지원하는 재구성 가능한 하드웨어 설계를 결합합니다. 예측 메커니즘과 이를 지원하는 하드웨어의 결합된 효과는 모델 추론 정확도를 유지하면서 MoE 추론 성능과 에너지 효율성을 크게 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기