본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:28

TwinGate: 비대칭 대조 학습을 통한 추적 불가능한 트래픽에서 분해형 제이브레이크에 대한 상태 유지 방어

요약

TwinGate는 분해형 제이브레이크와 같은 추적 불가능한 트래픽 환경에서 LLM의 상태 유지 방어 메커니즘을 제시하는 듀얼 인코더 프레임워크입니다. 이 시스템은 비대칭 대조 학습(ACL)을 활용하여, 의미적으로 차별적이면서도 의도가 일치하는 악성 파편들을 효과적으로 클러스터링합니다. TwinGate는 단일 경량 포워드 패스를 통해 낮은 지연 시간으로 높은 악의적 의도 회수율과 낮은 위양성률을 달성하며, 적응형 공격에 대해 강력한 방어 성능을 보여줍니다.

핵심 포인트

  • 분해형 제이브레이크는 유해하지 않은 쿼리 시퀀스를 조합하여 LLM의 안전성을 우회하는 심각한 위협입니다.
  • TwinGate는 상태 유지(stateful) 듀얼 인코더 방어 프레임워크로, 추적 불가능한 환경에서 전역 문맥을 추적합니다.
  • 비대칭 대조 학습(ACL)을 사용하여 악의적인 의도를 가진 파편들을 클러스터링하고 위양성률을 낮춥니다.
  • 단일 경량 포워드 패스만 필요로 하므로, 지연 시간 오버헤드가 거의 없어 실시간 배포에 적합합니다.
  • 대규모 코퍼스를 기반으로 평가되었으며, 기존의 상태 유지 및 비상태 베이스라인을 모두 능가하는 성능을 입증했습니다.

분해형 제이브레이크(decompositional jailbreaks)는 악의적인 목표를 개별적으로 유해하지 않은 쿼리들의 시퀀스로 분할하여 금지된 내용을 집단적으로 재구성하도록 허용함으로써 대형 언어 모델(LLMs)에 심각한 위협을 가합니다. 실제 배포 환경에서 LLM은 완전히 익명화되고 임의로 교차된 요청의 연속적이고 추적 불가능한 스트림에 직면하며, 여기에는 은밀하게 분포된 적대적 쿼리가 침투해 있습니다. 이러한 엄격한 위협 모델 하에서 최첨단 방어 전략은 근본적인 한계를 보입니다. 신뢰할 수 있는 사용자 메타데이터가 부재한 상태에서는 전역 역사적 문맥을 추적하는 것이 불가능하며, 실시간 모니터링을 위해 생성형 모델을 배포하는 것은 계산적으로 prohibitive 한 오버헤드를 초래합니다. 이를 해결하기 위해 우리는 TwinGate라는 상태 유지(stateful) 듀얼 인코더 방어 프레임워크를 제시합니다. TwinGate는 비대칭 대조 학습(Asymmetric Contrastive Learning, ACL)을 사용하여 공유 잠재 공간(latent space)에서 의미적으로 차별적이지만 의도(matched)가 일치하는 악의적인 파편들을 클러스터링하고, 병렬로 고정(frozen)된 인코더를 통해 유해하지 않은 주제적 중복으로 인한 위양성(false positives)을 억제합니다. 각 요청은 단일 경량 포워드 패스(lightweight forward pass)만 필요로 하여, 방어 메커니즘이 타겟 모델의 프리필(phases) 단계와 병렬로 실행될 수 있도록 하며 지연 시간(latency) 오버헤드는 무시할 수준입니다. 우리의 접근법을 평가하고 향후 연구를 발전시키기 위해 8,600 가지 서로 다른 악의적인 의도(intents)를 아우르는 총 362 만 개 이상의 지시사항(instructions)으로 구성된 포괄적인 데이터셋을 구축했습니다. 이 대규모 코퍼스(corpus)에서 엄격한 인과적(causal) 프로토콜 하에 평가된 결과, TwinGate는 매우 낮은 위양성률(false positive rate)에서 높은 악의적 의도 회수율(malicious intent recall)을 달성하면서도 적응형 공격(adaptive attacks)에 대해 매우 견고합니다. 또한, 우리의 제안은 상태 유지(stateful) 및 상태 불변(stateless) 베이스라인을 모두 크게 능가하여 우수한 처리량(throughput)과 감소된 지연 시간을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0