
Palo Alto Networks 연구원들, AI 공격 방식에 관한 932편의 논문 분석
요약
Palo Alto Networks 연구진이 AI 공격 관련 논문 932편을 분석한 결과, 현재 업계의 주요 안전 테스트가 알려진 공격 방식의 25%만을 커버하고 있음을 발견했습니다. OverThink와 VulMine 같은 실질적인 공격들에 대한 테스트가 전무한 상황을 지적하며 보안 평가의 불완전성을 경고합니다.
핵심 포인트
- 현재 주요 AI 안전 테스트는 알려진 공격의 25%만 검증 가능
- OverThink, VulMine 등 심각한 공격에 대한 테스트 부재
- 공격 방식에 대한 명칭 및 분류의 표준화 부족
- 기존 안전 점수는 공격 표면의 극히 일부만을 반영함
Palo Alto Networks의 연구원 4명이 AI를 공격하는 방법에 관한 932편의 논문을 검토했습니다.
그들은 알려진 모든 공격 방식을 하나의 커다란 차트에 정리했습니다.
그런 다음, 이러한 공격 중 안전 테스트(safety tests)가 인지하고 있는 공격이 얼마나 되는지 확인했습니다.
정답은 25%였습니다.
나머지 75%는 테스트 자체가 전혀 존재하지 않았습니다.
업계에서 사용하는 세 가지 주요 안전 테스트는 HarmBench, InjecAgent, 그리고 AgentDojo라고 불립니다. 이 중 어느 것도 동일한 항목을 점검하지 않습니다. 이들을 모두 합쳐도 알려진 공격 중 4개 중 1개만을 커버할 뿐입니다.
따라서 어떤 기업이 이러한 테스트를 통한 안전 점수(safety score)를 보여준다면, 그것은 4문제 중 3문제를 건너뛰는 시험의 성적을 보여주는 것과 같습니다.
상황은 더 심각합니다.
그들이 건너뛰는 공격들은 쉬운 공격들이 아닙니다. 공격의 전체 그룹들이 테스트가 전혀 없는 상태입니다. 약한 테스트가 아니라, 제로(Zero)입니다. 점수도 없고, 아무도 확인하지 않습니다.
그리고 이 공격들은 실재합니다. 논문들에 기록되어 있으며, 오늘날에도 작동합니다.
OverThink라고 불리는 한 공격은 모델이 평소보다 46배 더 많은 사고(thinking)를 소모하게 만듭니다. 이는 현재 존재하는 가장 큰 추론 모델(reasoning models) 9개에서 작동합니다.
VulMine이라고 불리는 또 다른 공격은 모델 자체의 거부 스위치(refusal switch)를 꺼버림으로써 96%의 확률로 안전성을 무너뜨립니다.
이 두 가지 공격 모두에 대한 안전 테스트는 존재하지 않습니다.
연구팀은 또한 읽은 논문들에서 2,521개의 서로 다른 공격을 발견했습니다. GCG라고 불리는 단일 공격은 376편의 논문에 걸쳐 29개의 서로 다른 이름으로 등장합니다. 이 분야는 공격을 테스트하기는커녕, 자신의 공격을 무엇이라 부를지에 대해서조차 합의하지 못하고 있습니다.
저자들은 이를 명확한 언어로 표현했습니다: "독립적으로 설계된 세 가지 벤치마크(benchmarks)는 겹치는 부분 없이 공격 표면(attack surface)의 좁은 영역에만 수렴하며, 이로 인해 전체 STRIDE 위협 카테고리가 표준화된 공개 평가를 받지 못한 채 방치되어 있다."
쉬운 말로 풀이하자면, 안전 테스트들이 문제의 동일하고 작은 구석만을 살펴보고 있다는 뜻입니다.
이것이 여러분에게 의미하는 바는 다음과 같습니다.
여러분이 오늘 사용하는 모든 AI, 즉 ChatGPT, Gemini, Claude는 알려진 공격의 75%를 놓치는 테스트를 통해 등급이 매겨집니다. 오늘 아침 여러분이 사용한 AI의 안전 라벨은 가장 어려운 질문들을 던지지 않는 시험에서 나온 결과입니다.
모델이 통과했다는 말만 들었을 뿐입니다. 무엇을 대상으로 테스트했는지는 아무도 말해주지 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @heynavtoor (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기