arXiv논문2026. 05. 22. 11:28

증류 게임 (The Distillation Game): 적응형 공격 및 효율적인 방어

요약

모델의 유용성과 보안성 사이의 트레이드오프를 다루는 증류 공격(Distillation attacks) 연구를 소개합니다. 적응형 학생 모델을 활용한 미니맥스 게임 프레임워크를 통해 효율적인 방어 기법인 PoE(Product-of-Experts)를 제안합니다.

핵심 포인트

모델 유용성이 증류 공격의 취약성을 높이는 트레이드오프 발생
적응형 학생 모델을 기준으로 한 새로운 방어 평가 체계 제안
저비용 고효율 방어 방식인 PoE(Product-of-Experts) 유도
수동 평가보다 적응형 평가가 모델의 실제 능력을 더 정확히 반영

증류 공격 (Distillation attacks)은 모델 제공자에게 배포 상의 트레이드오프 (trade-off)를 발생시킵니다. 모델을 더 유용하게 만드는 바로 그 출력값이 모델을 모방하기 더 쉽게 만들 수도 있기 때문입니다. 우리는 유용성 제약이 있는 교사 모델 (teacher)과 적응형 학생 모델 (adaptive student) 사이의 미니맥스 게임 (minimax game)을 통해 이 트레이드오프를 연구합니다. 우리의 프레임워크는 다루기 쉬운 단방향 응답 규칙 (one-sided response rules)을 도출합니다. 즉, 학생 모델이 가치가 높은 예시들에 가중치를 다시 부여하는 적응형 평가 규칙 (adaptive evaluation rule)과, 증류 (distillation)에 가장 유용한 출력을 억제하는 교사 측 방어 템플릿 (teacher-side defense template)입니다. 예시 가치에 대한 저렴한 프록시 (proxy)로부터, 우리는 생성 과정에서 교사 모델을 프록시 학생 모델과 결합하는 단순한 순전파 전용 (forward-pass-only) 방어 방식인 전문가 결합 (Product-of-Experts, PoE)을 유도합니다. 실증적으로, 적응형 평가 (adaptive evaluation)는 거대한 수동-적응형 격차 (passive--adaptive gap)를 드러냅니다. 최첨단 방어 기법들에 대해, 적응형 학생 모델은 GSM8K 및 MATH 데이터셋에서 수동 평가 (passive evaluation)가 시사하는 것보다 실질적으로 더 많은 능력을 회복합니다. 이러한 더 강력한 평가 하에서, 비용이 많이 드는 방어 기법과 PoE 사이의 외견상 견고성 격차 (robustness gap)는 상당히 좁혀지는 반면, PoE는 훨씬 더 저렴하면서도 더 높은 품질의 추론 흔적 (reasoning traces)을 보존합니다. 종합적으로, 우리의 결과는 강력한 증류를 막는 것이 여전히 어렵다는 점과, 안티-증류 (antidistillation)의 진전은 수동적인 학생이 아닌 적응형 학생을 기준으로 판단되어야 함을 시사합니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/ysfalh/distillation-game.

AI 자동 생성 콘텐츠

원문 바로가기

증류 게임 (The Distillation Game): 적응형 공격 및 효율적인 방어

요약

핵심 포인트

댓글