본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 20:50

Manifold-Aware Expert Evolution 을 통한 적응형 연속 모델 병합으로

요약

본 논문은 기존 연속 모델 병합(CMM)의 한계점인 파라미터 포화 및 표현 간섭 문제를 해결하기 위해 MADE-IT라는 적응형 CMM 방법을 제안합니다. MADE-IT는 다양체 기하학을 기반으로 전문가 관리와 활성화를 조율하며, 분포 인식적 임계값 메커니즘과 서브스페이스 친밀도 계량을 활용하여 자율적인 전문가 진화를 유도합니다. 또한 데이터 및 학습 과정 없이 특징-서브스페이스 정렬을 통해 전문가를 활성화하는 효율적인 라우팅 메커니즘을 제시함으로써, 장기 시퀀스 작업에서 높은 정확도와 견고성을 입증했습니다.

핵심 포인트

  • MADE-IT는 다양체 기하학(manifold geometry)에 기반하여 모델 병합 과정에서 전문가의 관리 및 활성화를 수행하는 적응형 CMM 방법론입니다.
  • 기존 CMM의 포화/중복 문제를 해결하기 위해 분포 인식적 임계값 메커니즘과 서브스페이스 친밀도 계량을 도입했습니다.
  • 데이터 무용(data-free) 및 학습 무용(training-free) 명시적 라우팅 메커니즘을 설계하여, 게이트 네트워크의 한계를 극복하고 전문가 활성화를 수행합니다.
  • 실험 결과, MADE-IT는 장기 지평선 및 섞인 작업 시퀀스에서 기존 베이스라인 대비 우수한 정확도와 견고성을 보여주었습니다.

연속 모델 병합 (Continual Model Merging, CMM) 은 집약적인 재학습 없이 작업별 모델을 통합된 아키텍처로 순차적으로 통합합니다. 그러나 기존 CMM 방법들은 근본적인 포화-중복 딜레마에 의해 제한됩니다: 백본 중심 (backbone-centric) 접근법은 고정된 용량 내에서 파라미터 포화 및 표현 간섭 (representation interference) 을 겪는 반면, Mixture-of-Experts (MoE) 변형은 무분별한 확장으로 인해 전문가 중복과 추가 데이터 기반 최적화에 의존하는 라우팅 병목 현상을 초래합니다. 이러한 과제를 해결하기 위해 우리는 본질적인 전문가 표현을 다양체 기하학 (manifold geometry) 에 근거하여 전문가 관리 및 활성화를 조율하는 적응형 CMM 방법인 MADE-IT (Manifold-Aware Dynamic Expert Evolution and Implicit rouTing) 을 제안합니다. 우리는 분포 인식적 적응 임계값 메커니즘과 결합된 투영 기반 서브스페이스 친밀도 (subspace affinity) 계량을 도입하여 자율적인 전문가 진화를 안내하고, 다양성과 아키텍처 간소화 (architectural parsimony) 를 조화시킵니다. 또한 파라미터화된 게이트 네트워크를 우회하기 위해 특징-서브스페이스 정렬 (feature-subspace alignment) 을 통해 전문가를 활성화하는 데이터 무용 (data-free) 및 학습 무용 (training-free) 명시적 라우팅 메커니즘을 설계했습니다. 광범위한 실험 결과, MADE-IT 는 장기 지평선 (long-horizon) 과 섞인 작업 시퀀스 (shuffled task sequences) 에서 정확도와 견고성 측면에서 강력한 베이스라인을 일관되게 능가하며, 특히 일반적 모듈과 초기 레이어 내에서 중복 전문가를 크게 가지르는 것으로 나타났습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0