AI 시스템 보안 평가를 위한 프레임워크 AVISE 소개
요약
인공지능(AI) 시스템이 핵심 영역에 광범위하게 배치되면서, 그 취약점은 심각한 위험을 초래하고 있습니다. 하지만 현재까지 체계적인 AI 보안 평가 방법론은 부족합니다. 본 논문에서는 이러한 문제를 해결하기 위해 모듈식 오픈 소스 프레임워크인 AVISE (AI Vulnerability Identification and Security Evaluation)를 제안합니다. AVISE는 AI 시스템과 모델의 취약점을 식별하고 보안을 평가하는 데 사용됩니다. 연구진들은 이 프레임워크를 활용하여 이론 기반의 다중 턴 공격(Red Queen)
핵심 포인트
- AVISE는 AI 시스템 및 모델의 취약점 식별 및 보안 평가를 위한 모듈식 오픈 소스 프레임워크입니다.
- 프레임워크 시연을 위해, Red Queen 공격을 적대적 언어 모델(ALM) 기반으로 확장하고 자동화된 보안 평가 테스트(SET)를 개발했습니다.
- 개발된 SET는 25개의 테스트 케이스와 평가 언어 모델(ELM)로 구성되어 높은 정확도(92%)를 달성했습니다.
- SET를 사용하여 다양한 크기의 최신 언어 모델 9개를 평가한 결과, 모두 증강된 Red Queen 공격에 취약함을 확인했습니다.
AI 시스템의 활용도가 높아지면서 보안 취약점 위험이 커지고 있습니다. 하지만 체계적인 AI 보안 평가 방법론은 여전히 미흡합니다.
본 논문에서는 이러한 격차를 해소하기 위해 **AVISE (AI Vulnerability Identification and Security Evaluation)**라는 모듈식 오픈 소스 프레임워크를 제시합니다. AVISE는 AI 시스템과 모델의 취약점을 식별하고 보안을 평가하는 데 사용됩니다.
연구진들은 이 프레임워크를 시연하기 위해, 이론 기반의 다중 턴 공격인 Red Queen 공격을 적대적 언어 모델(ALM) 증강 방식으로 확장했습니다. 또한, 언어 모델의 탈옥(jailbreak) 취약점을 발견하는 **자동 보안 평가 테스트 (SET)**를 개발했습니다.
이 SET는 25개의 테스트 케이스와 이를 판별하는 평가 언어 모델(ELM)로 구성되었으며, 높은 정확도(92%)와 F1-score 0.91을 기록했습니다. 이 SET를 이용해 다양한 크기의 최신 언어 모델 9개를 평가한 결과, 모든 모델이 증강된 Red Queen 공격에 취약함을 입증했습니다.
AVISE는 연구자와 산업 실무자들에게 확장 가능한 기반을 제공하여, 보다 엄격하고 재현성 높은 AI 보안 평가를 가능하게 하는 구체적인 발판을 마련합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기