arXiv논문2026. 06. 24. 11:24

자동화된 파이프라인 탐색을 통한 4-Expert 이종 Mixture-of-Experts의 체계적 탐색

요약

LEMUR 데이터셋을 활용하여 이종 4-Expert Mixture-of-Experts(MoE4) 아키텍처를 자동으로 탐색하는 파이프라인을 제안합니다. 대규모 탐색 과정에서 발생한 커버리지 편향 문제를 식별하고, 층화 추출을 통한 개선 방안과 최적의 앙상블 조합을 도출했습니다.

핵심 포인트

자동화된 코드 조립 생성기를 통한 MoE4 아키텍처 탐색
탐색 과정 중 특정 모델군에 편향되는 커버리지 편향 문제 발견
ShuffleNet과 MobileNetV3의 높은 앙상블 성능 확인
층화 추출(stratified random sampling)을 통한 탐색 개선 제안
NNGPT 오픈 소스 프로젝트를 통해 연구 결과 공개

우리는 LEMUR 신경망 데이터셋 생태계 내에서 이종 4-Expert Mixture-of-Experts (MoE4) 아키텍처를 위한 자동화된 대규모 탐색 파이프라인을 제시합니다. 수작업으로 제작된 이종 MoE 참조 모델을 기반으로, 우리는 수동 설계를 결정론적 코드 조립 생성기(deterministic code-assembly generator)로 대체하였습니다. 이 생성기는 LEMUR 데이터베이스에서 추출한 기본 아키텍처 제품군을 MoE4 앙상블로 체계적으로 결합하며, 각 앙상블은 온도 스케일링 (temperature scaling), 믹스업 증강 (mixup augmentation), 코사인 어닐링 학습률 스케줄링 (cosine-annealed learning rate scheduling)이 적용된 컨볼루션 게이팅 네트워크 (convolutional gating network)에 의해 제어됩니다. NVIDIA RTX 4090에서 28일간 진행된 캠페인을 통해, 파이프라인은 197개 배치에 걸쳐 4,463개의 후보 모델을 생성하였으며, 그 중 1,021개가 성공적으로 평가되었습니다. 캠페인을 통해 중요한 발견이 도출되었습니다: itertools.combinations를 통한 알파벳순 열거로 인해, 탐색된 전체 탐색 공간(이론적 가능한 23,751개 4-제품군 조합의 4.8%)이 단일 제품군인 AirNet에 고정되었습니다. 우리는 이러한 커버리지 편향 (coverage bias)을 정확하게 특성화하고, 생성기 내의 근본 원인을 식별하며, 층화 추출 (stratified random sampling) 수정 방안을 제안합니다. AirNet에 고정된 범위 내에서, ShuffleNet과 MobileNetV3는 지속적으로 가장 높은 정확도의 앙상블(평균 정확도 최대 0.632)을 공동 생성하는 반면, FractalNet과 MNASNet은 향후 캠페인에서 제외가 필요한 저수율 제품군으로 식별되었습니다. 파이프라인, 분석 결과물 및 수정된 생성기는 https://github.com/ABrain-One/nn-gpt 의 오픈 소스 NNGPT 프로젝트의 일부로 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

자동화된 파이프라인 탐색을 통한 4-Expert 이종 Mixture-of-Experts의 체계적 탐색

요약

핵심 포인트

댓글