CSO-LLM: LLM의 사후 학습 백도어 탐지 및 트리거 역전(Trigger Inversion)을 위한 클래스 부분 공간 직교화(Class

이미지 등에 사용되는 AI를 위해 사후 학습(post-training) 백도어 탐지 및 트리거 역전(trigger inversion) 체계가 개발되어 왔으나, LLM(Large Language Models)을 위한 이러한 방법론은 부족한 실정입니다. 첫째, LLM의 입력 공간은 이산적(discrete)이며, 가상의 트리거(trigger)의 토큰 길이인 k를 고려할 때 최대 150,000^k 개의 k-튜플(k-tuples)을 고려해야 합니다. 둘째, 공격의 가상 타겟 응답(클래스)에 전형적인 토큰들은 잘못된 탐지 신호를 줄 수 있으므로 블랙리스트(blacklist)로 지정해야 합니다. 그러나 일반적으로 특정 도메인에 대해 포괄적인 블랙리스트를 확보하기는 어렵습니다. 우리는 분류기(classifiers)로 취급되는 LLM을 위한 매우 효과적인 탐지 및 역전 프레임워크를 개발했습니다. 우리 접근 방식의 핵심은 클래스 부분 공간 직교화(Class Subspace Orthogonalization, CSO)로, 이는 LLM에 적용될 때 두 가지 근본적인 역할을 수행하는 새로운 플러그 앤 플레이(plug-and-play) 패러다임의 백도어 탐지 방식입니다: i) 베이스라인 탐지기(baseline detector)의 민감도(sensitivity)와 특이도(specificity)를 모두 향상시킵니다; ii) 공격의 가상 타겟 클래스 방향으로 신호 섭동(signal perturbations)을 유도하는 토큰이 후보 트리거에 포함되는 것에 대해 페널티를 부여함으로써 일종의 암시적 블랙리스트(implicit blacklisting) 역할을 수행합니다. 우리 탐지기의 한 버전은 토큰 임베딩(token embedding) 공간에서 연속 최적화(continuous optimization)를 수행하며, 이에 대응하는 트리거 역전 및 탐지 방법은 이산 토큰(discrete token) 공간에서 탐욕적 증식(greedy accretion)을 수행합니다. 우리의 방법론은 여러 LLM 분류 도메인과 다양한 LLM 아키텍처에서 강력한 탐지 성능과 실제 트리거(ground-truth triggers)에 대한 정확한 역전을 모두 보여줍니다.

Insights

CSO-LLM: LLM의 사후 학습 백도어 탐지 및 트리거 역전(Trigger Inversion)을 위한 클래스 부분 공간 직교화(Class

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법