arXiv논문2026. 05. 20. 11:56

지속적 모델 병합(Continual Model Merging)의 잠재력 해제: ODE 관점에서의 접근

요약

지속적 모델 병합(CMM) 과정에서 발생하는 성능 저하와 망각 문제를 해결하기 위해 ODE(상미분 방정식) 관점의 새로운 접근법인 ODE-M을 제안합니다. 기존 방식이 모델을 고립된 점으로 취급하는 한계를 넘어, 모드 연결성을 기반으로 손실 장벽을 피하며 파라미터 공간의 최적 경로를 추적합니다. 실험 결과, ODE-M은 주요 CMM 벤치마크에서 기존 모델들을 뛰어넘는 최첨단 성능을 입증했습니다.

핵심 포인트

기존 CMM 방식은 학습 용량 할당 제어가 어려워 순차적 병합 시 망각 현상이 누적됨
모델을 고립된 점이 아닌 파라미터 공간 내의 연결된 경로로 파악하는 것이 핵심
ODE-M은 시간 의존적 속도장과 장벽 제약을 활용하여 손실을 최소화하는 경로를 추적함
모드 연결성(mode connectivity) 개념을 도입하여 낮은 손실을 유지하는 병합 경로를 구축함

지속적 모델 병합 (Continual Model Merging, CMM)은 순차적으로 발생하는 작업들에 대해 파운데이션 모델 (foundation models)의 신속한 맞춤화(customization)를 가능하게 하며, 반복적인 재학습에 대한 확장 가능한 대안을 제공합니다. 그러나 기존의 병합 규칙은 이전에 학습된 능력과 새로 병합되는 모델 사이의 학습 용량(learning capacity) 할당에 대한 명시적인 제어 가능성 (controllability)이 부족합니다. 결과적으로, 작업들이 순차적으로 병합됨에 따라 이러한 결함은 심각한 망각 (forgetting)으로 누적되며, 특히 작업의 중요도가 이질적인 (heterogeneous) 시나리오에서는 성능 할당이 매우 불일치하게 나타납니다. 주요 원인은 기존 방법들이 각 작업 모델을 고립된 파라미터 지점 (parameter point)으로 취급하고 고정된 대수적 조합 (algebraic combinations)을 적용하기 때문이며, 독립적으로 학습된 모델들이 파라미터 공간 (parameter space)에서 어떻게 연결될 수 있는지를 존중하는 전이 (transition)를 명시적으로 구축하지 못한다는 점에 있습니다. 모드 연결성 (mode connectivity)에 착안하여, 우리는 바람직한 병합 모델이 낮은 손실 (low loss)을 가진 연결 경로 상에 존재하며, 지속적 병합은 망각을 유발하는 손실 장벽 (loss barriers)을 넘지 않고 이러한 경로를 따라야 한다고 가정합니다. 이러한 통찰을 바탕으로, 우리는 CMM에 맞춤화된 새로운 ODE 기반 병합 (ODE-driven Merging, ODE-M)을 제안합니다. ODE-M은 시간 의존적 속도장 (time-dependent velocity field)을 통합하고 손실을 증가시키는 단계를 방지하기 위해 장벽 제약 (barrier constraints)을 강제함으로써 이러한 경로를 추적합니다. 광범위한 실험을 통해 ODE-M이 주요 CMM 벤치마크 전반에서 경쟁 모델 대비 최첨단 (state-of-the-art) 성능을 달성함을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

지속적 모델 병합(Continual Model Merging)의 잠재력 해제: ODE 관점에서의 접근

요약

핵심 포인트

댓글