CSO-LLM: LLM의 사후 학습 백도어 탐지 및 트리거 역전(Trigger Inversion)을 위한 클래스 부분 공간 직교화(Class
요약
LLM의 사후 학습 백도어 탐지 및 트리거 역전을 위한 새로운 프레임워크인 CSO(Class Subspace Orthogonalization)를 제안합니다. 이 방식은 클래스 부분 공간 직교화를 통해 탐지 성능을 높이고 암시적 블랙리스트 역할을 수행하여 효과적인 보안 솔루션을 제공합니다.
핵심 포인트
- LLM의 이산적 입력 공간 문제를 해결하는 CSO 프레임워크 개발
- 클래스 부분 공간 직교화를 통한 탐지 민감도 및 특이도 향상
- 암시적 블랙리스트 기능을 통한 잘못된 탐지 신호 방지
- 다양한 LLM 아키텍처와 도메인에서 강력한 탐지 및 역전 성능 입증
이미지 등에 사용되는 AI를 위해 사후 학습(post-training) 백도어 탐지 및 트리거 역전(trigger inversion) 체계가 개발되어 왔으나, LLM(Large Language Models)을 위한 이러한 방법론은 부족한 실정입니다. 첫째, LLM의 입력 공간은 이산적(discrete)이며, 가상의 트리거(trigger)의 토큰 길이인 k를 고려할 때 최대 150,000^k 개의 k-튜플(k-tuples)을 고려해야 합니다. 둘째, 공격의 가상 타겟 응답(클래스)에 전형적인 토큰들은 잘못된 탐지 신호를 줄 수 있으므로 블랙리스트(blacklist)로 지정해야 합니다. 그러나 일반적으로 특정 도메인에 대해 포괄적인 블랙리스트를 확보하기는 어렵습니다. 우리는 분류기(classifiers)로 취급되는 LLM을 위한 매우 효과적인 탐지 및 역전 프레임워크를 개발했습니다. 우리 접근 방식의 핵심은 클래스 부분 공간 직교화(Class Subspace Orthogonalization, CSO)로, 이는 LLM에 적용될 때 두 가지 근본적인 역할을 수행하는 새로운 플러그 앤 플레이(plug-and-play) 패러다임의 백도어 탐지 방식입니다: i) 베이스라인 탐지기(baseline detector)의 민감도(sensitivity)와 특이도(specificity)를 모두 향상시킵니다; ii) 공격의 가상 타겟 클래스 방향으로 신호 섭동(signal perturbations)을 유도하는 토큰이 후보 트리거에 포함되는 것에 대해 페널티를 부여함으로써 일종의 암시적 블랙리스트(implicit blacklisting) 역할을 수행합니다. 우리 탐지기의 한 버전은 토큰 임베딩(token embedding) 공간에서 연속 최적화(continuous optimization)를 수행하며, 이에 대응하는 트리거 역전 및 탐지 방법은 이산 토큰(discrete token) 공간에서 탐욕적 증식(greedy accretion)을 수행합니다. 우리의 방법론은 여러 LLM 분류 도메인과 다양한 LLM 아키텍처에서 강력한 탐지 성능과 실제 트리거(ground-truth triggers)에 대한 정확한 역전을 모두 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기