본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 19:39

말은 (결코) 싸지 않다: LLM 공격에 대한 분류 체계 및 벤치마크 커버리지 감사

요약

본 기사는 LLM 공격 벤치마크들이 위협 표면을 얼마나 포괄적으로 다루고 있는지 감사하기 위한 재사용 가능한 프레임워크를 소개합니다. 이 프레임워크는 STRIDE 기반의 Target $\times$ Technique 매트릭스를 사용하여, 기존 6개 공개 벤치마크가 전체 매트릭스의 최대 25%만을 커버하고 있음을 분석했습니다. 또한, 표준화된 평가 부재로 인해 특정 위협 카테고리(Service Disruption, Model Internals)에서 테스트되지 않은 공격들이 높은 성공률을 보이는 구조적 취약점을 지적하며, 향후 연구의 방향성을 제시합니다.

핵심 포인트

  • LLM 공격 벤치마크의 포괄적인 커버리지 감사를 위한 재사용 가능한 프레임워크(STRIDE 기반 매트릭스)를 제안함.
  • 기존 주요 공개 벤치마크들(HarmBench, InjecAgent, AgentDojo 등)은 서로 중복되는 셀을 점유하며 전체 위협 표면의 최대 25%만을 커버하고 있음이 밝혀짐.
  • 특정 위협 카테고리(Service Disruption, Model Internals)는 표준화된 평가가 부재하여 실제 공격 성공률이 높음에도 불구하고 테스트되지 않는 구조적 취약점이 존재함.
  • 본 연구에서 구축한 분류 체계, 공격 기록 및 커버리지 매핑 아티팩트는 새로운 벤치마크의 평가 격차를 추적하는 데 활용될 수 있음.

우리는 LLM 공격 벤치마크들이 위협 표면(threat surface)을 집합적으로 커버하는지 감사하기 위한 재사용 가능한 프레임워크를 소개합니다. 이는 STRIDE에 기반한 4$ imes$6 Target $ imes$ Technique 매트릭스로, 932개의 arXiv 보안 연구(2023--2026)에서 추출된 추론 시간(inference-time) 공격으로부터 구축된 507개의 리프(leaf) 분류 체계(데이터가 채워진 401개 및 위협 모델에서 유도된 106개 리프)를 바탕으로 구성되었습니다. 이 매트릭스는 개별 벤치마크의 일관성보다는 집합적인 커버리지를 감사하는 벤치마크 외부 검증(benchmark-external validation)을 가능하게 합니다. 이를 6개의 공개 벤치마크에 적용한 결과, 세 가지 주요 프레임워크(HarmBench, InjecAgent, AgentDojo)는 서로 겹치지 않는 셀을 점유하며 매트릭스의 최대 25%만을 커버하고 있음을 발견했습니다. 반면, STRIDE 위협 카테고리 전체(Service Disruption, Model Internals)는 해당 카테고리에서 발표된 공격들이 어떤 벤치마크도 테스트하지 않는 메커니즘을 통해 46$ imes$ 토큰 증폭 및 96%의 공격 성공률을 달성했음에도 불구하고, 표준화된 평가가 전혀 부재한 상태입니다. 2,521개의 고유한 공격 그룹 코퍼스는 광범위한 명칭 파편화(단일 공격에 대해 최대 29개의 표면 형태 존재)와 Safety & Alignment Bypass에 대한 과도한 집중을 추가로 드러내며, 이는 더 작은 규모에서는 보이지 않는 구조적 특성입니다. 분류 체계, 공격 기록 및 커버리지 매핑은 확장 가능한 아티팩트(artifacts)로 공개됩니다. 새로운 벤치마크가 등장함에 따라 동일한 매트릭스에 매핑할 수 있어, 커뮤니티가 평가 격차가 좁혀지고 있는지 추적할 수 있도록 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0