arXiv논문2026. 06. 09. 11:53

비트 플립 연쇄(Chain of Bit-Flips)를 이용한 연합 모델 적응(Federated Model Adaptation) 대상 모델

요약

연합 학습(FL) 환경에서 하드웨어 결함(bit-flips)을 이용해 백도어를 심는 새로운 모델 포이즈닝 공격 방식을 제안합니다. Rowhammer와 같은 하드웨어 취약점을 활용해 사전 학습된 모델의 파라미터를 조작함으로써 태스크 불가지론적 백도어를 성공적으로 구축할 수 있음을 입증했습니다.

핵심 포인트

하드웨어 결함 기반의 새로운 FL 백도어 공격 카테고리 소개
Rowhammer 등을 이용한 비트 플립으로 모델 파라미터 조작 가능
ResNet-18 기준 매우 적은 결함으로도 94%의 높은 공격 성공률 달성
사전 학습된 모델을 활용한 정교한 태스크 불가지론적 공격 수행

연합 학습 (Federated Learning, FL)은 일련의 클라이언트들이 로컬 학습 데이터를 공유하지 않고도 공동으로 글로벌 모델을 학습할 수 있게 해줍니다. 학습의 책임을 분산된 행위자들에게 맡기는 것은 포이즈닝 공격 (poisoning attacks)으로 이어질 수 있습니다. 즉, 악의적인 제3자가 제어하는 클라이언트가 학습 데이터셋을 오염시켜 신경망에 백도어 (backdoor)를 설치할 가능성이 있습니다. FL에서 이러한 백도어 공격은 오로지 알고리즘적 접근 방식에만 의존해 왔으나, 최근 하드웨어 결함 위협 (hardware faults threats, 예: Rowhammer)의 발전은 전체적인 공격 표면 (attack surface)을 넓혔습니다. 연합 모델 적응 (federated model adaptation)의 맥락에서, 우리는 하드웨어 결함 공격에 기반한 모델 포이즈닝 (model poisoning)에 의존하는 FL 시스템 대상의 새로운 백도어 공격 카테고리를 소개합니다. 더 구체적으로, 우리는 단일 로컬 모델의 파라미터에 하드웨어 결함 (bit-flips)을 유도함으로써 FL 학습 시간 동안 심어지는 태스크 불가지론적 (task-agnostic) 백도어 공격을 제안합니다. 이 백도어는 FL 시스템에서 초기에 사용된 사전 학습된 모델 (pretrained model)로부터 이전의 오프라인 단계 동안 정교하게 제작됩니다. 우리의 연구 결과는 다양한 유형의 모델과 데이터셋에 백도어가 성공적으로 적용될 수 있음을 보여줍니다. 일반적으로, ResNet-18에서 악의적인 클라이언트당 최대 10개의 결함과 총 19회의 발생만으로도 94%의 공격 성공률 (attack success rate)에 도달하기에 충분합니다. 마지막으로, 우리는 이러한 유형의 위협에 선호되는 공격 벡터인 Rowhammer의 실제적인 제약 사항을 고찰하는 동시에, 공격의 실용성과 잠재적 방어책의 강건성 (robustness)에 대해 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비트 플립 연쇄(Chain of Bit-Flips)를 이용한 연합 모델 적응(Federated Model Adaptation) 대상 모델

요약

핵심 포인트

댓글