arXiv논문2026. 05. 01. 17:24

Auto-FlexSwitch: 학습 가능한 작업 벡터 압축을 통한 효율적인 동적 모델 병합

요약

Auto-FlexSwitch는 학습 가능한 작업 벡터 압축 및 관리 기법을 통해 기존의 동적 모델 병합(dynamic model merging)이 가진 높은 저장 오버헤드 문제를 해결하는 새로운 프레임워크입니다. 이 방법은 작업별 가중치 증분(task vectors)을 이진 희소 마스크, 부호 벡터, 스칼라 스케일링 인자 세 가지 컴팩트한 요소로 분해하여 고압축률에서도 높은 근사도를 유지합니다. 또한, 기능 유사성 검색과 학습 가능한 게이팅 및 양자화 전략을 통합함으로써 효율적이고 적응적인 모델 병합을 가능하게 합니다.

핵심 포인트

Auto-FlexSwitch는 동적 모델 병합의 저장 오버헤드 문제를 해결하는 새로운 프레임워크입니다.
작업 벡터를 이진 희소 마스크, 부호 벡터, 스칼라 스케일링 인자 세 가지 컴팩트한 요소로 분해하여 압축 효율성을 극대화했습니다.
Auto-Switch는 기능 유사성 검색을 통해 작업 벡터를 자동으로 조립하는 학습 불필요(training-free) 병합 방식을 제공합니다.
FlexSwitch는 Learnable Gating Sparsification (LGS), Bit-width Adaptive Selection (BAS) 등을 사용하여 압축 전략을 적응적으로 최적화합니다.
K-Nearest Neighbor (KNN) 추론 스키임을 통합하여 작업 벡터의 효율적인 검색 및 활용을 지원합니다.

모델 병합 (model merging) 은 여러 작업별 모델 (task-specific models) 의 지식을 통합하여 다중 작업 적응 (multi-task adaptation) 으로 가는 효과적인 경로로 주목을 끌고 있습니다. 기존 접근법 중 동적 병합 (dynamic merging) 은 추론 시간 (inference time) 에서 작업별 파라미터를 유연하게 결합함으로써 여러 작업 간 상충되는 파라미터 업데이트 (conflicting parameter updates) 로 인한 성능 저하를 완화하여 높은 성능을 유지합니다. 그러나 이러한 방법들은 각 작업에 대한 독립적인 파라미터를 저장해야 하므로 prohibitive storage overhead 를 초래합니다.

이 문제를 해결하기 위해, 우리는 먼저 실험적으로 정밀 조정된 가중치 증분 (fine-tuned weight increments, 즉 task vectors) 이 임펄스 유사한 활성화 패턴 (impulse-like activation pattern) 을 보이며 저 비트 표현 (low-bit representations) 에 대해 높은 견고성 (high robustness) 을 가진다는 것을 입증했습니다. 이 통찰력을 바탕으로 우리는 작업 벡터를 이진 희소 마스크 (binary sparse mask), 부호 벡터 (sign vector), 스칼라 스케일링 인자 (scalar scaling factor) 라는 세 가지 컴팩트한 구성 요소로 분해하여 고압축 비율에서도 고신뢰도 근사 (high-fidelity approximation) 를 달성하는 T-Switch 를 제안합니다.

그 다음으로, 우리는 기능 유사성 검색 (feature similarity retrieval) 을 통해 작업 벡터를 자동으로 조립하는 학습 불필요 병합 스키ーム (training-free merging scheme) 인 Auto-Switch 를 도입했습니다. 또한, 작업 벡터 희소화 (task vector sparsification) 와 양자화 (quantization) 를 정적 규칙에서 적응형 학습으로 전환하기 위해, 각 모델 단위 (model unit) 에 대한 압축 전략을 Learnable Gating Sparsification (LGS) 과 Bit-width Adaptive Selection (BAS) 을 통해 공동 최적화하고, Sparsity-Aware Storage Strategy (SASS) 을 사용하여 최적의 저장 인코딩 구조를 선택하는 학습 가능한 프레임워크인 FlexSwitch 를 개발했습니다. 마지막으로, 학습 가능한 저랭크 메트릭 (learnable low-rank metric) 을 갖춘 K-Nearest Neighbor (KNN) 추론 스키ーム을 통합하여, 작업 벡터 압축을 매우 효율적으로 지원하는 동적 모델 병합 접근법인 Auto-FlexSwitch 를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Auto-FlexSwitch: 학습 가능한 작업 벡터 압축을 통한 효율적인 동적 모델 병합

요약

핵심 포인트

댓글