NeuroImprint Detector: Federated Learning에서의 개인정보 백도어 탐지를 위한 PEFT 어댑터 감사

요약

연합 학습(Federated Learning) 환경에서 PEFT 어댑터를 통해 학습 데이터를 유출하는 'NeuroImprint' 공격을 탐지하고 분석하는 프레임워크를 소개합니다. 악의적인 서버가 어댑터를 오염시켜 원본 데이터를 재구성하는 보안 취약점을 다룹니다.

핵심 포인트

PEFT 어댑터 가중치를 통해 원본 데이터의 59-79%를 재구성 가능
NeuroImprint Detector를 통한 어댑터 백도어 탐지 및 감사 지원
BERT, GPT-2, Qwen2, Llama 3.2 등 다양한 모델에서 공격 작동 확인
연합 학습 환경에서의 프라이버시 보호를 위한 보안 도구 제공

문제점: 당신의 PEFT 어댑터가 자신도 모르게 데이터를 유출하고 있을 수 있습니다

당신이 Federated Learning (연합 학습) 프로젝트에 참여하고 있다고 상상해 보세요. 클라이언트는 민감한 데이터(의료, 금융, 법률 등)를 사용하여 로컬에서 LoRA 어댑터를 학습시킨 후 중앙 서버로 전송합니다. 서버는 당신의 원시 데이터(raw data)를 절대 볼 수 없습니다. 그렇죠?

틀렸습니다.

Shi et al. (2026)의 최근 논문에 따르면, 악의적인 서버는 어댑터를 **오염(corrupt)**시켜 당신의 학습 데이터 샘플 전체를 기억하도록 만들 수 있습니다. 파인튜닝 (fine-tuning) 이후, 공격자는 어댑터의 가중치 (weights)를 읽는 것만으로 원본 샘플의 59-79%를 높은 의미론적 충실도로 재구성할 수 있습니다.

이것이 바로 NeuroImprint 공격이며, BERT, GPT-2, Qwen2 및 Llama 3.2에서 작동합니다.

도구: NeuroImprint Detector

저는 이에 대한 대응책으로 neuroimprint-detector를 개발했습니다. 이는 PEFT 어댑터를 분석하여 NeuroImprint 백도어가 포함되어 있는지 탐지하고, 발견 시 기억된 샘플을 재구성하는 감사 (auditing) 프레임워크입니다.

전체 포렌식 파이프라인 (Pipeline)

[Adapter PEFT]
      │
      ▼
...

설치 및 사용법

pip install neuroimprint-detector

어댑터 감사하기:

neuroimprint-audit --path /path/to/adapter

전체 포렌식 재구성 (온라인 토크나이저 사용):

neuroimprint-audit --path /adapter \
  --reconstruct \
  --tokenizer-id Qwen/Qwen2-0.5B \
...

오프라인 모드 (인터넷 연결 없음):

neuroimprint-audit --path /adapter \
  --reconstruct \
  --tokenizer-id /path/to/local/tokenizer \
...

Python에서 사용:

from neuroimprint_detector import NeuroImprintDetector

detector = NeuroImprintDetector()
...

공격 결과 (논문 내용)

모델 (Modelo)	옵티마이저 (Optimizer)	재구성률 (Tasa reconstrucción)	의미론적 유사도 (Similitud semántica)
BERT	SGD	77.4%	0.994
...
SGD는 정확한 재구성을 가능하게 합니다. AdamW는 근사적인 재구성을 허용합니다 (모멘텀 (momentum)으로 인해 크기가 손실됨).

기술 스택 (Stack técnico)

구성 요소 (Componente)	설명 (Descripción)
탐지기 (Detector)	가중치 분석: 동일한 행, 편향 (bias) 구간, RaLU 지문 (fingerprint)
...
43개 테스트 통과 — 유닛 테스트 (unit tests) + 통합 테스트 (integration tests) 완전 커버리지.

왜 중요한가?

연합 학습 (Federated Learning)은 분산된 데이터로 모델을 학습시키기 위한 프라이버시 솔루션으로 제시됩니다. 하지만 서버가 데이터를 암기하기 위해 어댑터 (adapters)를 오염시킬 수 있다면, 프라이버시는 환상에 불과합니다.

이 도구는 보안 팀이 어댑터를 프로덕션에 배포하기 전에 감사 (audit)하여, 암기 백도어 (memorization backdoors)를 포함하고 있지 않은지 확인할 수 있게 해줍니다.

링크

저장소 (Repositorio): https://github.com/amurlaniakea/neuroimprint-detector
기반 논문 (Paper base): Shi et al. (2026) — From Efficiency to Leakage
라이선스 (Licencia): AGPL-3.0-or-later

귀하의 FL 파이프라인 어댑터를 감사하시겠습니까? 의견을 들려주세요.

AI 자동 생성 콘텐츠

원문 바로가기