SARA: 의미론적 앵커 기반 라우팅 정렬을 통한 Mixture-of-Experts의 다국어 지식 활용 극대화
요약
SARA는 MoE 아키텍처에서 저자원 언어의 성능을 높이기 위해 고자원 언어의 의미론적 앵커를 활용하는 프레임워크입니다. 라우팅 분포를 직접 정렬하여 언어 간 전문가 공유를 극대화함으로써 다국어 능력을 향상시킵니다.
핵심 포인트
- 저자원 언어의 전문가 라우팅 발산 문제 해결
- JS 발산 제약 조건을 통한 라우팅 분포 정렬
- 기존 증류 방식과 달리 MoE 내부 라우팅 직접 정렬
- Qwen3, Phi-3.5-MoE 등 주요 모델에서 성능 향상 입증
Sparse Mixture-of-Experts (MoE) 아키텍처는 파라미터 확장성(scalability)과 계산 효율성(computational efficiency) 사이의 전략적 균형을 제공함에 따라 점점 더 영향력 있는 패러다임으로 부상했습니다. 그러나 고품질 학습 데이터의 부족으로 어려움을 겪는 저자원 언어(low-resource languages)의 토큰은 고자원(high-resource) 입력에 의해 주로 활성화되는 전문가(experts)와는 다른 전문가로 라우팅되는 경우가 많으며, 이는 교차 언어적 전문가 공유(cross-lingual expert sharing)를 제한합니다. 결과적으로 이러한 교차 언어적 라우팅 발산(cross-lingual routing divergence)은 다국어 문맥에서의 효능을 저해합니다. 이 문제를 해결하기 위해, 우리는 고자원 언어를 앵커(anchors)로 사용하여 전문화된 능력을 저자원 언어로 전이하도록 설계된 프레임워크인 SARA (Semantically Anchored Routing Alignment)를 제안합니다. SARA는 대칭적 Jensen-Shannon (JS) 발산 제약 조건을 사용하여 다국어 입력의 라우팅 분포를 고자원 의미론적 앵커와 명시적으로 정렬합니다. 출력 로짓(output logits)에서 작동하는 전통적인 증류(distillation) 방법과 달리, SARA는 MoE 레이어의 내부 라우팅 분포를 직접 정렬하여 언어 간 전문가 선택에 있어 기계론적 일관성(mechanistic consistency)을 장려합니다. 우리는 5개의 저자원 언어와 3개의 벤치마크에 대해 2개의 LLM을 대상으로 실험을 수행했습니다. 실험 결과, SARA는 표준 지시어 튜닝(instruction tuning)보다 우수한 성능을 보였으며, 예시로 Global-MMLU에서 Qwen3-30B-A3B는 +0.8%, Phi-3.5-MoE-instruct는 +1.2%의 성능 향상을 기록했습니다. 추가 분석을 통해 SARA가 저자원 언어에서의 성능 병목 현상을 효과적으로 해결하며, 희소 아키텍처(sparse architectures)에서 다국어 능력을 향상시키기 위한 확장 가능한 경로를 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기