arXiv논문2026. 06. 29. 11:04

탈옥 공격 하에서의 견고한 유해 특징: 대규모 언어 모델(LLM)의 어텐션 헤드 특화(Attention Head Specialization)에

요약

LLM 탈옥 공격이 안전 특징을 완전히 제거하는 대신 특정 어텐션 헤드를 선택적으로 억제한다는 연구 결과입니다. 공격 시 억제되는 ACH와 견고함을 유지하는 SAH를 식별하여 탈옥의 기계론적 메커니즘을 규명했습니다.

핵심 포인트

탈옥 공격은 특정 어텐션 헤드(ACH)를 선택적으로 억제함
중간 레이어의 안전 정렬 헤드(SAH)는 공격 후에도 견고한 활성 유지
소수의 ACH 억제만으로도 탈옥과 유사한 동작 유도 가능
SAH의 활성화를 읽어내는 것만으로도 강력한 유해성 탐지 가능

탈옥(Jailbreak) 공격은 LLM의 안전 정렬(Safety Alignment)을 우회하지만, 그 메커니즘은 여전히 제대로 이해되지 않고 있습니다. 본 연구는 공격이 안전 특징(Safety Features)을 포괄적으로 제거하는 것이 아니라, 특정 어텐션 헤드(Attention Heads)를 선택적으로 억제한다는 증거를 제공합니다. 우리는 기능적으로 차별화된 두 가지 유형을 식별했습니다: 초기 레이어(Early Layers)에 집중되어 공격 시 억제되는 적대적 손상 헤드(Adversarially Compromised Heads, ACHs)와, 공격이 성공하더라도 견고한 활성화(Activations)를 유지하는 중간 레이어(Mid-layers)의 안전 정렬 헤드(Safety-Aligned Heads, SAHs)입니다. 절제 연구(Ablation Studies)는 ACH의 인과적 역할과 견고한 활성화에 대한 SAH의 기여를 뒷받침합니다. 즉, 소수의 ACH를 억제하는 것만으로도 정상적으로 거절되어야 할 입력에 대해 탈옥과 유사한 동작을 유도하기에 충분하며, SAH를 제거하면 중간 레이어의 안전 활성화가 실질적으로 약화됩니다. 토큰 수준의 기여도 분석(Token-level Attribution)은 ACH 억제가 구체적으로 공격 템플릿 토큰(Attack-template Tokens)에 의해 유도됨을 보여줍니다. 이는 왜 공격이 SAH에 의해 유지되는 내부 안전 신호를 남겨둔 채 ACH 억제를 통해 거절 결정을 우회할 수 있는지에 대한 기계론적 설명을 제공하며, 우리는 이 현상을 견고한 유해 특징(Robust Harmful Features)이라고 명명합니다. 이러한 견고성의 실질적인 중요성을 검증하기 위해, 우리는 별도의 학습 없이 이러한 지속적인 활성화를 읽어내는 것만으로도 강력한 적대적 견고성을 가진 경쟁력 있는 종합 탐지 성능을 얻을 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

탈옥 공격 하에서의 견고한 유해 특징: 대규모 언어 모델(LLM)의 어텐션 헤드 특화(Attention Head Specialization)에

요약

핵심 포인트

댓글