arXiv논문2026. 06. 03. 11:05

PsychoPass: 다회차 적대적 LLM 대화의 기하학적 프로파일링

요약

다회차 탈옥 공격을 대화 궤적의 기하학적 구조로 분석하는 PsychoPass 프레임워크를 제안합니다. 임베딩 공간 내의 기하학적 특징을 통해 유해 콘텐츠 생성 전 공격 의도를 조기에 예측할 수 있음을 입증했습니다.

핵심 포인트

다회차 탈옥 공격을 표현 공간 내의 경로로 모델링
대화 초기에 나타나는 기하학적 지문(Geometric Fingerprint) 발견
단순 분류기보다 강력한 초기 단계 공격 예측 가능성 확인
인코더 선택에 관계없이 일관된 기하학적 신호 존재

대규모 언어 모델 (LLMs)에 대한 다회차 탈옥 공격 (Multi-turn jailbreak attacks)은 현재 가드레일 (guardrails)의 불일치를 드러냅니다. 현재의 가드레일은 개별 턴 (individual turns) 단위로 작동하는 반면, 공격은 대화 전반에 걸쳐 궤적 (trajectories) 형태로 전개되기 때문입니다. 우리는 관점을 콘텐츠에서 역학 (dynamics)으로 전환하여, 대화를 표현 공간 (representation space) 내의 경로로 모델링하고 적대적 의도가 그 기하학적 구조 (geometry)의 초기에 인코딩되는지 질문합니다. 우리는 임베딩 공간 (embedding space) 내의 대화 궤적에서 기하학적 특징 (geometric features)을 추출하여, 유해한 콘텐츠가 생성되기 전에 잠재적 공격을 예측하는 프레임워크인 PsychoPass를 소개합니다. 이러한 특징들은 단순 분류기 (naïve classifiers)에서 완벽에 가까운 성능을 달성하는데, 이는 주로 턴 수 (number of turns)가 특징으로 포함되었기 때문으로 설명됩니다. 이 혼란 변수 (confound)를 제거한 후에도 작지만 일관된 기하학적 신호 (geometric signal)가 남아 있으며, 분류 성능은 인코더 (encoder) 선택에 크게 의존하지 않습니다. 결정적으로, 이 신호는 대화 초기에 나타납니다. 공격 결과는 짧은 접두사 (prefixes)만으로도 기준 가드레일 (baseline guardrails)보다 더 신뢰성 있게 우연 확률 (chance) 이상의 수치를 유지합니다. 이를 뒷받침하는 이론적 분석은 길이와 형태의 분해 (decomposition of length and shape), 접두사 길이에 기반한 탐지 경계 (detection bound), 그리고 인코더 불변성 (encoder invariance)을 통해 이러한 발견을 설명합니다. 종합적으로, 이러한 결과는 적대적 대화가 온라인 모니터링에 적합한, 초기 단계의 표현 강건한 (representation-robust) 기하학적 지문 (geometric fingerprint)을 남긴다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PsychoPass: 다회차 적대적 LLM 대화의 기하학적 프로파일링

요약

핵심 포인트

댓글