arXiv논문2026. 06. 30. 14:17

모델 병합(Model Merging)에 대한 파라미터 수준 방어(Parameter-Level Defenses)의 취약성에 관하여

요약

모델 병합을 통한 무단 모델 통합을 막기 위한 파라미터 수준 방어 기제의 취약성을 분석한 연구입니다. 사전 학습된 모델의 지배력을 이용해 방어 기제를 우회하는 '앵커 가이드 공격(AGA)'을 제안하며, 이를 방어하기 위한 '앵커 반발 미세 조정(ARF)' 방법론을 함께 제시합니다.

핵심 포인트

파라미터 수준 방어 기제의 본질적 취약성 규명
사전 학습 모델을 활용한 앵커 가이드 공격(AGA) 제안
기존 방어 체계를 우회하는 변환 행렬 복구 가능성 입증
공격을 방어하기 위한 앵커 반발 미세 조정(ARF) 방법론 제시

모델 병합(Model Merging)을 통한 전문가 모델(expert models)의 학습 없는 통합은 무단으로 특화된 모델들을 결합하는 프리라이더(free-riders)를 가능하게 하여 심각한 보안 위험을 노출시켰습니다. 최근 연구들은 이러한 위협을 중화하기 위해 선형 파라미터 변환(linear parameter transformations)을 사용하는 파라미터 수준 방어(parameter-level defenses)를 제안합니다. 본 논문에서는 이러한 방어 기제들을 체계적으로 분석하며, 보호된 태스크 벡터(task vectors)의 크기가 본질적으로 작다는 점을 밝혀냅니다. 결과적으로, 보호된 가중치(weights)는 사전 학습된 모델(pretrained model)에 의해 압도적으로 지배된 상태로 남게 됩니다. 이러한 관찰을 바탕으로, 우리는 사전 학습된 모델을 정적 참조 앵커(static reference anchor)로 지정하고, 기존의 보호 조치들을 우회하는 앵커 가이드 공격(Anchor-Guided Attack, AGA)을 제안합니다. 구체적으로, AGA는 보호된 모델을 이 앵커에 정렬하여 변환 행렬(transformation matrix)을 분석적으로 복구합니다. 광범위한 평가를 통해 AGA가 현실적인 방어 불가지론적(defense-agnostic) 시나리오에서 개별 및 복합 방어 체계를 일관되게 우회함을 검증했습니다. 나아가, 우리는 AGA가 활용하는 앵커 지배력(anchor dominance)을 완화하기 위한 방어 방법인 앵커 반발 미세 조정(Anchor-Repulsive Fine-tuning, ARF)을 제공합니다. 실험 결과는 ARF가 제안된 공격을 효과적으로 격퇴함을 확인시켜 줍니다. 우리의 코드는 https://github.com/krumpguo/secure-merge-attack 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

모델 병합(Model Merging)에 대한 파라미터 수준 방어(Parameter-Level Defenses)의 취약성에 관하여

요약

핵심 포인트

댓글