긴 대화에서의 다회차 탈옥 탐지를 위한 확장 가능한 계층적 어텐션 트랜스포머 (Scalable Hierarchical Attention
요약
다회차 탈옥(Multi-turn jailbreaks)을 탐지하기 위해 긴 컨텍스트 연결 없이도 효율적인 계층적 어텐션 트랜스포머 모델을 제안합니다. 이 모델은 대화의 역동성을 포착하며, 기존 Claude Opus 모델보다 높은 F1 점수를 기록하고 오탐률을 절반으로 낮췄습니다.
핵심 포인트
- 다회차 탈옥 탐지를 위한 효율적인 계층적 탐지기 제안
- 긴 컨텍스트 연결 없이 압축된 턴 표현을 통한 비용 절감
- Claude Opus 대비 높은 F1 점수 및 낮은 오탐률 달성
- 교차 어텐션과 셀프 어텐션 결합을 통한 탐지 성능 향상
다회차 탈옥 (Multi-turn jailbreaks)은 점진적인 에스컬레이션 (escalation), 재구성 (reframing), 그리고 역할 조작 (role manipulation)을 통해 대화 전반에 걸쳐 유해한 의도를 분산시킴으로써 턴 단위 (turn-level)의 중재를 회피할 수 있습니다. 우리는 다회차 탈옥 탐지를 대화 수준의 분류 문제로 다루며, 교차 턴 추론 (cross-turn reasoning) 능력을 유지하면서도 비용이 많이 드는 긴 컨텍스트 연결 (long-context concatenation)을 피하는 효율적인 계층적 탐지기 (hierarchical detector)를 소개합니다. 이 모델은 개별 턴을 인코딩하여 압축된 턴 표현 (turn representations)을 형성하고, 대화의 역동성 (dialogue dynamics)을 포착하며 필요할 때 미세한 증거에 선택적으로 어텐션 (attention)을 적용하는 경량 대화 모듈 (conversation module)을 적용합니다. 14,038개의 대화로 구성된 도전적인 평가 벤치마크에서, 우리의 접근 방식은 F1 점수 0.9394를 달성하였으며, 이는 가장 강력한 경쟁 베이스라인인 Claude Opus 4.7보다 0.07 높으면서도 오탐률 (false-positive rate)은 절반으로 줄인 결과입니다. 절제 연구 (Ablation studies)를 통해 각 아키텍처 구성 요소가 유의미하게 기여함을 확인하였으며, 대화 모듈에서 교차 어텐션 (cross-attention)과 셀프 어텐션 (self-attention)을 결합했을 때 셀프 어텐션만 사용한 변형 모델보다 오탐률이 2.26 퍼센트 포인트 감소하는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기