arXiv논문2026. 05. 07. 12:53

[SoK] 대형 언어 모델 (LLM) 의 제이브레이크 공격에 대한 견고성: 체계적 분류 및 평가 프레임워크

요약

본 논문은 대형 언어 모델(LLMs)이 적대적 프롬프트 기반의 제이브레이크 공격에 취약하다는 문제를 다루며, 기존 평가 방법론의 한계를 지적합니다. 이를 해결하기 위해 'Security Cube'라는 통합 다차원 평가 프레임워크를 제안합니다. 이 프레임워크를 통해 다양한 공격 및 방어 기법을 체계적으로 분류하고 벤치마크함으로써, LLM 보안 취약점과 견고성을 종합적으로 분석하고 향후 연구 방향을 제시하는 것을 목표로 합니다.

핵심 포인트

LLMs는 적대적 프롬프트(제이브레이크 공격)에 매우 취약하여 실제 위험을 초래할 수 있습니다.
기존 LLM 보안 평가는 공격 성공률 등 좁은 지표에 의존하여 다차원적인 특성을 포착하지 못합니다.
논문에서는 제이브레이크 공격과 방어를 체계적으로 분류하고 평가하기 위한 'Security Cube'라는 통합 프레임워크를 제시했습니다.
제안된 프레임워크를 활용하여 13가지 대표적 공격 및 5가지 방어에 대한 포괄적인 벤치마크 연구를 수행했습니다.

대형 언어 모델 (Large Language Models, LLMs) 은 놀라운 성과를 이루었지만, 적대적 프롬프트를 통해 해로운, 윤리적이지 않거나 정책 위반 콘텐츠를 생성하도록 강요하는 제이브레이크 공격 (jailbreak attacks) 에 매우 취약합니다. 이러한 공격은 실제 세계의 위험을 초래하여 고위험 응용 분야에서 안전성, 신뢰도 및 규제 준수성을 훼손합니다. 다양한 공격 및 방어 방법이 제안되었음에도 불구하고, 기존 평가 관행은 부족하며, 공격 성공률과 같은 좁은 지표에 의존하여 LLM 보안의 다차원적 특성을 포착하지 못합니다. 본 논문에서는 제이브레이크 공격 및 방어를 체계적으로 분류하고, 이러한 기술의 종합적 평가를 위한 통합 다차원 프레임워크인 Security Cube 를 소개합니다. 기존 공격 및 방어 방법에 대한 상세 비교 표를 제공하여 문헌 전반에 걸친 핵심 통찰과 해결되지 않은 과제를 강조합니다. Security Cube 를 활용하여 13 가지 대표적 공격과 5 가지 방어를 대상으로 벤치마크 연구를 수행하여, 제이브레이크 공격, 방어 방법, 자동 판정자 및 LLM 취약점을 포괄하는 현재 상황을 명확히 파악했습니다. 이러한 평가에 기반하여 우리는 중요한 발견을 요약하고, 해결되지 않은 문제를 식별하며, 제이브레이크 공격에 대한 LLM 견고성 향상을 위한 유망한 연구 방향을 제시합니다. 우리의 분석은 더 견고하고 해석 가능하며 신뢰할 수 있는 LLM 시스템을 구축하는 길을 여는 것을 목표로 합니다. 코드 는 Code 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

[SoK] 대형 언어 모델 (LLM) 의 제이브레이크 공격에 대한 견고성: 체계적 분류 및 평가 프레임워크

요약

핵심 포인트

댓글