arXiv논문2026. 06. 16. 11:56

Mixture-of-Experts를 활용한 대규모 언어 모델의 충돌 인지 연합 미세 조정 (Conflict-Aware Federated

요약

데이터 이질성이 존재하는 연합 학습 환경에서 MoE 모델의 전문가 최적화 충돌 문제를 해결하기 위한 FC-MoE 프레임워크를 제안합니다. 중요도 인지 가중치와 그래디언트 합의 투영을 통해 안정적인 글로벌 최적화를 구현합니다.

핵심 포인트

MoE 기반 연합 학습 시 발생하는 전문가 간 최적화 충돌 문제 해결
중요도 인지 가중치 부여를 통한 신뢰할 수 있는 로컬 업데이트 우선순위 지정
그래디언트 합의 투영을 활용한 안정적인 글로벌 최적화 경로 확보
로컬 지식 유지 메커니즘으로 클라이언트의 도메인 특화 지식 보존
Non-IID 환경에서 수렴 속도 및 모델 성능 향상 입증

대규모 언어 모델 (LLMs)의 지속적인 스케일링은 막대한 계산 비용을 초래하며, 이로 인해 Mixture-of-Experts (MoE)가 희소 활성화 (sparse activation)를 통한 효율적인 미세 조정 (fine-tuning)을 위한 확장 가능한 대안으로 떠오르고 있습니다. 연합 학습 (Federated Learning, FL)이 개인정보를 보호하는 협력적 최적화를 위한 패러다임으로 등장하고 있지만, 데이터 이질성 (data heterogeneity) 하에서 MoE를 FL에 통합하는 것은 충돌하는 전문가 최적화 (conflicting expert optimizations)를 유발할 수 있습니다. 클라이언트별 데이터 분포는 동일한 인덱스의 전문가들이 일관되지 않거나 심지어 상충하는 특징-레이블 상관관계 (feature-label correlations) 하에서 최적화되도록 강제합니다. 이러한 불일치는 집계 (aggregation) 과정에서 파괴적인 간섭 (destructive interference)을 유발하여, 최적화 경로를 불안정하게 만들고 모델 성능을 저하시킵니다. 이 문제를 해결하기 위해, 우리는 MoE 미세 조정을 위한 연합 충돌 인지 프레임워크인 FC-MoE를 제안합니다. 이는 신뢰할 수 있는 로컬 업데이트에 우선순위를 두는 중요도 인지 가중치 부여 방식 (importance aware weighting scheme)을 채택하고, 충돌하는 업데이트를 억제하기 위해 그래디언트 합의 투영 (gradient consensus projection)을 활용하여 안정적인 글로벌 최적화 경로를 보장합니다. 또한, 로컬 지식 유지 메커니즘 (local knowledge retention mechanism)은 도메인 특화 잔차 (domain-specific residuals)를 재고정함으로써 클라이언트의 전문 지식을 더욱 보존합니다. 광범위한 실험을 통해 FC-MoE가 비독립 동일 분포 (non-IID) 연합 환경에서 수렴을 가속화하고 글로벌 및 로컬 모델 성능을 모두 향상시킨다는 것을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mixture-of-Experts를 활용한 대규모 언어 모델의 충돌 인지 연합 미세 조정 (Conflict-Aware Federated

요약

핵심 포인트

댓글