arXiv논문2026. 05. 15. 19:39

말은 (결코) 싸지 않다: LLM 공격에 대한 분류 체계 및 벤치마크 커버리지 감사

요약

본 기사는 LLM 공격 벤치마크들이 위협 표면을 얼마나 포괄적으로 다루고 있는지 감사하기 위한 재사용 가능한 프레임워크를 소개합니다. 이 프레임워크는 STRIDE 기반의 Target $\times$ Technique 매트릭스를 사용하여, 기존 6개 공개 벤치마크가 전체 매트릭스의 최대 25%만을 커버하고 있음을 분석했습니다. 또한, 표준화된 평가 부재로 인해 특정 위협 카테고리(Service Disruption, Model Internals)에서 테스트되지 않은 공격들이 높은 성공률을 보이는 구조적 취약점을 지적하며, 향후 연구의 방향성을 제시합니다.

핵심 포인트

LLM 공격 벤치마크의 포괄적인 커버리지 감사를 위한 재사용 가능한 프레임워크(STRIDE 기반 매트릭스)를 제안함.
기존 주요 공개 벤치마크들(HarmBench, InjecAgent, AgentDojo 등)은 서로 중복되는 셀을 점유하며 전체 위협 표면의 최대 25%만을 커버하고 있음이 밝혀짐.
특정 위협 카테고리(Service Disruption, Model Internals)는 표준화된 평가가 부재하여 실제 공격 성공률이 높음에도 불구하고 테스트되지 않는 구조적 취약점이 존재함.
본 연구에서 구축한 분류 체계, 공격 기록 및 커버리지 매핑 아티팩트는 새로운 벤치마크의 평가 격차를 추적하는 데 활용될 수 있음.

우리는 LLM 공격 벤치마크들이 위협 표면(threat surface)을 집합적으로 커버하는지 감사하기 위한 재사용 가능한 프레임워크를 소개합니다. 이는 STRIDE에 기반한 4$ imes$6 Target $ imes$ Technique 매트릭스로, 932개의 arXiv 보안 연구(2023--2026)에서 추출된 추론 시간(inference-time) 공격으로부터 구축된 507개의 리프(leaf) 분류 체계(데이터가 채워진 401개 및 위협 모델에서 유도된 106개 리프)를 바탕으로 구성되었습니다. 이 매트릭스는 개별 벤치마크의 일관성보다는 집합적인 커버리지를 감사하는 벤치마크 외부 검증(benchmark-external validation)을 가능하게 합니다. 이를 6개의 공개 벤치마크에 적용한 결과, 세 가지 주요 프레임워크(HarmBench, InjecAgent, AgentDojo)는 서로 겹치지 않는 셀을 점유하며 매트릭스의 최대 25%만을 커버하고 있음을 발견했습니다. 반면, STRIDE 위협 카테고리 전체(Service Disruption, Model Internals)는 해당 카테고리에서 발표된 공격들이 어떤 벤치마크도 테스트하지 않는 메커니즘을 통해 46$ imes$ 토큰 증폭 및 96%의 공격 성공률을 달성했음에도 불구하고, 표준화된 평가가 전혀 부재한 상태입니다. 2,521개의 고유한 공격 그룹 코퍼스는 광범위한 명칭 파편화(단일 공격에 대해 최대 29개의 표면 형태 존재)와 Safety & Alignment Bypass에 대한 과도한 집중을 추가로 드러내며, 이는 더 작은 규모에서는 보이지 않는 구조적 특성입니다. 분류 체계, 공격 기록 및 커버리지 매핑은 확장 가능한 아티팩트(artifacts)로 공개됩니다. 새로운 벤치마크가 등장함에 따라 동일한 매트릭스에 매핑할 수 있어, 커뮤니티가 평가 격차가 좁혀지고 있는지 추적할 수 있도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

말은 (결코) 싸지 않다: LLM 공격에 대한 분류 체계 및 벤치마크 커버리지 감사

요약

핵심 포인트

댓글