AxMoE: 근사 곱셈이 혼합 전문가 (Mixture-of-Experts) DNN 아키텍처에 미치는 영향 분석
요약
본 논문은 근사 곱셈(Approximate Computing)이 혼합 전문가(MoE) DNN 아키텍처에 미치는 영향을 분석한 AxMoE를 제시합니다. 연구진은 다양한 CNN 및 Vision Transformer (ViT) 모델과 세 가지 MoE 변형을 대상으로, 여러 종류의 양자화된 근사 곱셈기를 사용하여 성능 저하와 회복률을 평가했습니다. 주요 결과로, 재학습 없이 Dense 구조가 가장 안정적이었으며, ViT-Small의 경우 Hard MoE가 특정 조건에서 높은 효율성을 보였고, 아키텍처 및 토폴로지에 따라 근사 인식 재학습 후 성능 회복 정도가 크게 달라짐을 확인했습니다.
핵심 포인트
- 근사 곱셈과 MoE 구조의 결합은 아직 충분히 탐구되지 않은 새로운 연구 영역이다.
- 재학습 없이 평가했을 때, Dense 아키텍처는 대부분의 CNN에서 가장 높은 안정성을 보였다.
- ViT-Small 모델의 경우 Hard MoE가 등가 정규화된 추론 비용 측면에서 공격적인 근사 환경에서도 우수한 성능을 나타냈다.
- 근사 인식 재학습 후 성능 회복률은 사용된 아키텍처, MoE 토폴로지, 그리고 곱셈기의 종류에 따라 매우 가변적이다.
엣지 (Edge) 에서 심층 신경망 (DNN) 추론은 정확도, 계산 효율성, 에너지 소비의 동시 개선을 요구합니다. 근사 계산 (Approximate Computing) 과 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처는 각각 독립적인 경로를 통해 효율적인 추론을 위한 연구 대상이 되었으며,前者는 저전력 근사 곱셈기를 사용하여 정확한 산술을 대체하고,后者는 입력을 전문화된 전문가 서브 네트워크를 통해 라우팅하여 조건부 계산 (conditional computation) 을 가능하게 합니다. 그러나 두 요소의 상호작용은 아직 완전히 탐구되지 않았습니다. 이 논문은 AxMoE 를 제시하며, 근사 곱셈이 MoE DNN 아키텍처에 미치는 영향에 대한 첫 번째 연구입니다. 우리는 EvoApproxLib 라이브러리에서 제공하는 8 개의 8 비트 양수 (signed) 곱셈기 (정확한 기준 포함 1 개) 를 사용하여 CIFAR-100 데이터셋과 Tiny ImageNet-200 데이터셋의 ResNet-20, VGG11_bn, VGG19_bn 등 세 가지 CNN 아키텍처와 ViT-Small 이라는 Vision Transformer 를 대상으로 Hard MoE, Soft MoE, Cluster MoE 등 세 가지 MoE 변형을 밀집 (dense) 기준과 비교하여 평가했습니다. 결과는 재학습 없이도 Dense 기준이 모든 CNN 아키텍처에서 가장 회복력 있는 토폴로지임을 보여주었으며, ViT-Small 의 경우 라우팅 전략에 관계없이 모든 토폴로지가 유사한 비율로 성능 저하를 보였습니다. 근사 인식 (approximate-aware) 재학습 후 회복률은 아키텍처, 토폴로지, 곱셈기에 따라 크게 달라집니다. ResNet-20 은 전체 곱셈기 범위에서 완전한 회복을 달성했으며, VGG 아키텍처는 중간 수준의 근사에서는 회복되지만 모든 토폴로지에서 공격적인 (aggressive) 근사는 회복 불가능하게 실패하며 Cluster MoE 는 VGG11_bn 에서 예외입니다. ViT-Small 의 경우 Hard MoE 가 등가 정규화된 추론 비용에서 공격적인 근사에서 Dense 를 능가합니다. 이러한 결과는 향후 근사 MoE 하드웨어 - 소프트웨어 공동 설계 전략을 위한 길을 여깁니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기