arXiv논문2026. 05. 07. 13:55

AxMoE: 근사 곱셈이 혼합 전문가 (Mixture-of-Experts) DNN 아키텍처에 미치는 영향 분석

요약

본 논문은 근사 곱셈(Approximate Computing)이 혼합 전문가(MoE) DNN 아키텍처에 미치는 영향을 분석한 AxMoE를 제시합니다. 연구진은 다양한 CNN 및 Vision Transformer (ViT) 모델과 세 가지 MoE 변형을 대상으로, 여러 종류의 양자화된 근사 곱셈기를 사용하여 성능 저하와 회복률을 평가했습니다. 주요 결과로, 재학습 없이 Dense 구조가 가장 안정적이었으며, ViT-Small의 경우 Hard MoE가 특정 조건에서 높은 효율성을 보였고, 아키텍처 및 토폴로지에 따라 근사 인식 재학습 후 성능 회복 정도가 크게 달라짐을 확인했습니다.

핵심 포인트

근사 곱셈과 MoE 구조의 결합은 아직 충분히 탐구되지 않은 새로운 연구 영역이다.
재학습 없이 평가했을 때, Dense 아키텍처는 대부분의 CNN에서 가장 높은 안정성을 보였다.
ViT-Small 모델의 경우 Hard MoE가 등가 정규화된 추론 비용 측면에서 공격적인 근사 환경에서도 우수한 성능을 나타냈다.
근사 인식 재학습 후 성능 회복률은 사용된 아키텍처, MoE 토폴로지, 그리고 곱셈기의 종류에 따라 매우 가변적이다.

엣지 (Edge) 에서 심층 신경망 (DNN) 추론은 정확도, 계산 효율성, 에너지 소비의 동시 개선을 요구합니다. 근사 계산 (Approximate Computing) 과 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처는 각각 독립적인 경로를 통해 효율적인 추론을 위한 연구 대상이 되었으며,前者는 저전력 근사 곱셈기를 사용하여 정확한 산술을 대체하고,后者는 입력을 전문화된 전문가 서브 네트워크를 통해 라우팅하여 조건부 계산 (conditional computation) 을 가능하게 합니다. 그러나 두 요소의 상호작용은 아직 완전히 탐구되지 않았습니다. 이 논문은 AxMoE 를 제시하며, 근사 곱셈이 MoE DNN 아키텍처에 미치는 영향에 대한 첫 번째 연구입니다. 우리는 EvoApproxLib 라이브러리에서 제공하는 8 개의 8 비트 양수 (signed) 곱셈기 (정확한 기준 포함 1 개) 를 사용하여 CIFAR-100 데이터셋과 Tiny ImageNet-200 데이터셋의 ResNet-20, VGG11_bn, VGG19_bn 등 세 가지 CNN 아키텍처와 ViT-Small 이라는 Vision Transformer 를 대상으로 Hard MoE, Soft MoE, Cluster MoE 등 세 가지 MoE 변형을 밀집 (dense) 기준과 비교하여 평가했습니다. 결과는 재학습 없이도 Dense 기준이 모든 CNN 아키텍처에서 가장 회복력 있는 토폴로지임을 보여주었으며, ViT-Small 의 경우 라우팅 전략에 관계없이 모든 토폴로지가 유사한 비율로 성능 저하를 보였습니다. 근사 인식 (approximate-aware) 재학습 후 회복률은 아키텍처, 토폴로지, 곱셈기에 따라 크게 달라집니다. ResNet-20 은 전체 곱셈기 범위에서 완전한 회복을 달성했으며, VGG 아키텍처는 중간 수준의 근사에서는 회복되지만 모든 토폴로지에서 공격적인 (aggressive) 근사는 회복 불가능하게 실패하며 Cluster MoE 는 VGG11_bn 에서 예외입니다. ViT-Small 의 경우 Hard MoE 가 등가 정규화된 추론 비용에서 공격적인 근사에서 Dense 를 능가합니다. 이러한 결과는 향후 근사 MoE 하드웨어 - 소프트웨어 공동 설계 전략을 위한 길을 여깁니다.

AI 자동 생성 콘텐츠

원문 바로가기

AxMoE: 근사 곱셈이 혼합 전문가 (Mixture-of-Experts) DNN 아키텍처에 미치는 영향 분석

요약

핵심 포인트

댓글