arXiv논문2026. 06. 02. 10:14

MESA: 분산된 전문성을 통한 MoE 안전 정렬(Safety Alignment) 개선

요약

MoE 모델의 '안전 희소성' 문제를 해결하기 위해 제안된 MESA 프레임워크를 소개합니다. 최적 운송(OT) 이론을 활용하여 안전 책임을 전문가들에게 전략적으로 분산함으로써, 모델의 유용성을 유지하면서도 유해성 방어 성능을 극대화합니다.

핵심 포인트

MoE의 안전 역량이 특정 전문가에게 집중되는 취약점 해결
최적 운송 이론 기반의 전문가 용량 재할당 메커니즘 적용
동적 라우팅 정교화를 통한 분산된 안전 모듈 활성화
모델 성능 저하를 최소화하며 유해성 벤치마크 방어력 강화

Mixture-of-Experts (MoE) 아키텍처는 입력을 관련 전문가(experts)에게 동적으로 라우팅(routing)함으로써 계산 비용을 줄이면서도 더 큰 용량을 가능하게 하여 대규모 언어 모델 (LLMs)을 효율적으로 확장하지만, 한 가지 치명적인 취약점을 초래합니다. 바로 안전 역량이 소수의 전문가에게 집중되어 적대적 우회(adversarial bypassing)에 취약해지는 '안전 희소성 (Safety Sparsity)' 문제입니다. 한편, 기존의 정렬(alignment) 방식은 모든 파라미터(parameters)를 균일하게 조정하여 기능적 차이를 무시하고 의도치 않게 성능을 저하시킵니다. 이러한 문제를 해결하기 위해, 우리는 유용성(utility)에 대한 간섭을 최소화하면서 커버리지를 극대화하기 위해 안전 책임을 전략적으로 분산시키는 MoE 기반 LLM을 위한 타겟 정렬 프레임워크인 MESA (MoE Safety Alignment)를 제안합니다. 최적 운송 (Optimal Transport (OT)) 이론에 기반하여, MESA는 두 가지 메커니즘을 통해 작동합니다: (1) 전문가 용량 재할당 (Expert Capacity Reallocation)은 운송 비용 행렬 (transport cost matrix)을 사용하여 가장 비용 효율적인 전문가에게 안전 임무를 배분하며, (2) 동적 라우팅 정교화 (Dynamic Routing Refinement)는 라우터 (router)가 이러한 분산된 모듈들을 정확하게 활성화하도록 제한합니다. 실험 결과, MESA는 유용성을 유지하면서도 다양한 유해성 벤치마크 (harmful benchmarks)에 대해 강력한 방어 성능을 달성함을 보여주었습니다. 코드는 https://github.com/lorraine021/MESA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MESA: 분산된 전문성을 통한 MoE 안전 정렬(Safety Alignment) 개선

요약

핵심 포인트

댓글