arXiv논문2026. 05. 29. 10:51

공격 성공률(ASR)을 넘어: LLM 안전 실패에 대한 시계열 로짓 관측 가능성 (Temporal Logit Observability)

요약

기존의 공격 성공률(ASR) 방식은 탈옥 과정의 세부 경로를 파악하지 못하는 한계가 있습니다. 본 연구는 로짓(logits)을 활용한 시계열 로짓 관측 가능성(TLO)을 통해 모델의 안전성 실패 과정을 시각화하고 진단하는 새로운 방법을 제안합니다.

핵심 포인트

ASR의 한계를 극복하는 시계열 로짓 관측 가능성(TLO) 제안
로짓 기반의 2D 평면을 통해 탈옥 공격의 서로 다른 경로 식별
훈련이 필요 없는 진단 방법으로 모델-공격 조건 분석 가능
TLO 기반 조기 종료 규칙으로 탈옥 공격을 절반 이상 감소

공격 성공률 (Attack Success Rate, ASR)은 각 탈옥 (jailbreak) 시도를 생성 종료 시점에 단일한 yes/no 레이블로 평가하며, 이는 실패가 발생했는지 여부만 알려줄 뿐 어떻게 전개되었는지는 알려주지 않습니다. 동일하게 유해한 출력을 생성하는 두 공격이라도 완전히 다른 경로를 따랐을 수 있으며, ASR은 이 둘을 구분할 수 없습니다. 우리는 이러한 숨겨진 경로를 로짓 (logits)만으로 관측 가능하게 만듭니다. 시계열 로짓 관측 가능성 (Temporal Logit Observability, TLO)은 디코딩 (decoding) 과정 동안 순응-거부 마진 (compliance-refusal margin)을 관찰하고, 각 모델-공격 조건을 보정된 2D 평면 위에 배치하는 훈련이 필요 없는 진단 방법입니다. 설계상 이 평면은 ASR이 가장 정보를 제공하지 못하는 지점, 즉 진정으로 서로 다른 이유로 성공하는 공격들 사이에서 가장 많은 정보를 제공합니다. 4개의 정렬된 LLM (Large Language Models)과 3개의 탈옥 패러다임 전반에 걸쳐, 거의 동일한 ASR을 가진 공격들이 평면 위의 명확히 다른 지점에 위치함을 확인했습니다. 즉, 동일한 모델이라도 서로 다른 시계열 패턴을 통해 실패할 수 있습니다. 이러한 기하학적 구조는 대부분의 조건에서 은닉 상태 (hidden states)로부터의 거부 방향 프로브 (refusal-direction probes)와 일치하며, 한 모델은 우리의 고정 어휘 접근 방식 (fixed-lexicon approach)의 한계를 보여주었습니다. TLO에서 유도된 간단한 조기 종료 (early-stop) 규칙은 일반적인 양성 쿼리 (benign queries)에 대한 오보 없이 성공적인 탈옥을 절반 이상 줄입니다. 안전성 평가는 실패가 발생했는지 여부뿐만 아니라, 언제 그리고 어떻게 실패가 전개되는지를 보고해야 합니다. TLO는 이 두 가지를 로짓만으로 관측 가능하게 만듭니다.

AI 자동 생성 콘텐츠

원문 바로가기

공격 성공률(ASR)을 넘어: LLM 안전 실패에 대한 시계열 로짓 관측 가능성 (Temporal Logit Observability)

요약

핵심 포인트

댓글