본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 10:56

멀티태스크 모델 병합을 위한 폐쇄형 스펙트럼 정규화 (Closed-Form Spectral Regularization)

요약

멀티태스크 모델 병합 시 반복적인 경사 하강법이 암시적 스펙트럼 정규화 역할을 한다는 점을 발견하고, 이를 폐쇄형 솔버인 SWUDI로 구현했습니다. 제안된 방법은 기존 방식보다 실행 시간을 최대 72배 단축하면서도 동등하거나 우수한 성능을 보여줍니다.

핵심 포인트

  • 반복적 최적화가 암시적 스펙트럼 정규화 도구로 작동함을 규명
  • SWUDI를 통해 폐쇄형 스펙트럼 필터링 추정기 제안
  • 기존 방식 대비 실행 시간 28~72배 단축 및 GPU 메모리 50% 절감
  • 다양한 벤치마크에서 최첨단 병합 방법과 대등하거나 우수한 성능 입증

모델 병합 (Model merging)은 별도의 학습 데이터 없이 독립적으로 미세 조정된(fine-tuned) 여러 전문가 모델을 하나의 멀티태스크 모델로 결합하며, 이를 통해 거대 파운데이션 모델 (foundation models)의 저장, 서빙 및 분산 개발 비용을 절감합니다. 최첨단 병합 방법들은 병합을 레이어별 이차 간섭 최소화 (layer-wise quadratic interference minimization) 문제로 정식화합니다. 이 문제는 정확한 폐쇄형 유사 역행렬 (closed-form pseudoinverse) 해를 허용함에도 불구하고, 실제로는 해당 해가 수백 번의 경사 하강법 (gradient descent) 반복보다 성능이 떨어집니다. 반복 루프는 파이프라인 비용의 대부분을 차지하지만, 그 효과는 그동안 설명되지 않은 채 남아 있었습니다. 우리는 이 체제를 재검토하여, 반복 솔버 (iterative solver)가 주로 최적화 도구 (optimizer)로서 작동하는 것이 아니라, 부적절하게 정의된 정규 방정식 (ill-posed normal equation)에 대한 암시적 스펙트럼 정규화 도구 (implicit spectral regularizer) 역할을 한다는 것을 보여줍니다. 여기서 레이어별 간섭 연산자 (per-layer interference operator)의 작은 고유값 (small-eigenvalue) 방향은 프록시 노이즈 (proxy noise)를 증폭시킵니다. 이러한 발견을 바탕으로, 우리는 멀티태스크 모델 병합을 노이즈가 있는 선형 역문제 (noisy linear inverse problem)로 정식화하고, 방향별 필터로 매개변수화된 스펙트럼 필터링 추정기 (spectral filtering estimator)를 제안합니다. 우리는 이 추정기를 SWUDI로 구현하였는데, 이는 반복적 하강의 경사 흐름 궤적 (gradient-flow trajectory)과 일치하는 소프트 지수 필터 (soft exponential filter)와 노이즈를 증폭시키는 작은 고유값 방향을 억제하는 하드 Top-K 절단 (hard top-K truncation)을 결합한 폐쇄형 방법입니다. 나아가, 우리는 전역 랭크 (global rank) 하이퍼파라미터를 레이어별 랭크 규칙으로 대체하여 다양한 아키텍처 전반에서 견고성 (robustness)을 더욱 향상시킨 적응형 변형인 SWUDI-A를 제안합니다. 두 변형 모두 선형 레이어당 단일 대칭 고유값 분해 (symmetric eigendecomposition)를 공유하며, 학습 데이터나 옵티마이저 상태 (optimizer state)를 필요로 하지 않습니다. VQA, 기하학 (Geometry), 차트 (Chart), OCR, 그라운딩 (Grounding) 및 모달리티 병합 (modality merging)을 아우르는 4개의 일반 벤치마크와 멀티모달 병합 벤치마크 전반에 걸쳐, 우리가 제안한 스펙트럼 솔버들은 최첨단 병합 방법들과 대등하거나 이를 능가하는 성능을 보였습니다. 결정적으로, 이들은 실제 실행 시간 (wall-clock time)을 28~72배 단축하고 피크 GPU 메모리 (peak GPU memory)를 최대 50%까지 절감합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0