arXiv논문2026. 05. 07. 13:05

트랜스포머 보안 추론의 셔플링 방어에 대한 (불-)보안성

요약

본 논문은 트랜스포머 모델의 암호학적 안전한 추론 과정에서 사용되는 '셔플링 방어(shuffling defense)'가 주장하는 것만큼 견고하지 않음을 보여줍니다. 연구진은 공통 순열과 다르게 섞인 활성화 값을 정렬하여 모델 가중치를 추출하는 새로운 공격 방법을 제안했습니다. Pythia-70m 및 GPT-2 실험을 통해, 이 공격이 매우 낮은 오차 범위에서도 성공적으로 작동하며 실제 환경에서 민감한 모델 정보를 복원할 수 있음을 입증했습니다.

핵심 포인트

트랜스포머 모델의 안전한 추론은 효율성 문제로 인해 클라이언트가 중간 활성화 값을 공개하는 방식으로 진행되어 왔습니다.
기존의 셔플링 방어는 노출된 활성화 값에 무작위 순열을 적용하여 공격자가 가중치를 추출하는 것을 막으려 했으나, 본 논문은 이 방어가 취약함을 입증했습니다.
제안된 공격은 공통 순열과 다르게 섞인 활성화 값을 정렬함으로써 모델 가중치(weights)를 성공적으로 복원할 수 있습니다.
실험 결과에 따르면, 이 공격은 매우 낮은 제곱 오차($10^{-9}$ ~ $10^{-6}$) 범위에서도 효과적이며, 실제 비용으로도 민감한 정보를 추출할 수 있음을 보여줍니다.

트랜스포머 모델의 암호학적 안전한 추론은 클라이언트가 최종 출력만 학습하고 서버가 클라이언트의 입력에 대해 아무것도 알지 못하도록 보장합니다. 그러나 비선형 계층을 안전하게 계산하는 것은 상당한 통신 라운드와 데이터 전송이 필요하기 때문에 여전히 주요 효율성 병목 현상입니다. 이 문제를 해결하기 위해, 기존 연구들은 클라이언트에게 중간 활성화 값을 공개하여 비선형 연산이 평문에서 계산되도록 허용합니다. 이러한 접근법은 효율성을 크게 향상시키지만, 활성화 값을 노출함으로써 공격자가 모델 가중치를 추출할 수 있게 합니다. 이러한 위험을 완화하기 위해, 기존 연구들은 랜덤으로 섞인 활성화 값만 클라이언트에 공개하는 셔플링 방어 (shuffling defense) 를 사용합니다. 본 논문에서는 셔플링 방어가 과거에 주장된 것만큼 견고하지 않음을 보여줍니다. 우리는 공통된 순열과 다른 방식으로 섞인 활성화 값을 정렬한 후 이를 이용하여 모델 가중치를 추출하는 공격을 제안합니다. Pythia-70m 과 GPT-2 실험에서 제안된 공격은 제곱 오차 (mean squared errors) 가 $10^{-9}$ 에서 $10^{-6}$ 까지 범위를 갖는 경우 섞인 활성화 값을 정렬할 수 있음을 보여줍니다. 쿼리 비용이 약 1 달러인 경우, 공격자는 오라클 가중치와 비교하여 L1-노름 차이가 $10^{-4}$ 에서 $10^{-2}$ 까지 범위를 갖는 모델 가중치를 복원할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

트랜스포머 보안 추론의 셔플링 방어에 대한 (불-)보안성

요약

핵심 포인트

댓글