눈이 보는 것을 LLM은 놓친다: 인간의 지각을 이용한 적대적 텍스트 공격
요약
LLM 기반 콘텐츠 중재 시스템이 인간의 시각적 지각과 달리 타이포그래피 조작에 취약함을 밝힌 연구입니다. 간격, 강조, 배치 등 시각적 요소를 활용한 적대적 공격(HPAA)을 통해 기계의 탐지율을 1% 미만으로 낮추면서도 인간의 인식률은 86% 이상 유지할 수 있음을 증명했습니다.
핵심 포인트
- 인간의 시각적 지각과 LLM의 토큰 기반 처리 간의 불일치 발견
- 타이포그래피 조작을 이용한 새로운 적대적 공격(HPAA) 제안
- 블랙박스 설정에서도 매우 적은 쿼리로 공격 성공 가능
- 현재 LLM 중재 시스템의 근본적인 시각적 사각지대 노출
대규모 언어 모델 (LLM) 기반의 콘텐츠 중재 (Content Moderation) 시스템은 유해한 온라인 콘텐츠에 대응하는 중요한 방어 수단이 되었습니다. 그러나 이러한 시스템은 주로 토큰화된 텍스트 (Tokenized text)를 기반으로 작동하며, 인간이 콘텐츠를 해석할 때 자연스럽게 의존하는 시각적 단서 (Visual cues)를 상당 부분 무시합니다. 우리는 이러한 불일치가 근본적인 지각적 불일치 (Perceptual mismatch)를 생성한다는 것을 보여줍니다. 즉, 인간에게는 유해한 것으로 쉽게 인식되는 콘텐츠가 자동화된 중재 시스템에는 효과적으로 보이지 않게 될 수 있습니다. 이러한 취약성을 연구하기 위해, 우리는 시각적으로 두드러지는 타이포그래피 조작 (Typographic manipulations)을 통해 유해한 표현을 일반적인 텍스트에 삽입하는 인간 지각 가능 적대적 공격 (Human-Perceptible Adversarial Attacks, HPAA) 클래스를 도입합니다. 우리의 핵심 통찰은 간격 (Spacing), 시각적 강조 (Visual emphasis), 공간적 배치 (Spatial arrangement)를 포함한 타이포그래피 특징들을 전략적으로 결합함으로써, 유해 콘텐츠에 대한 인간의 인식은 유지하면서 기계의 탐지 가능성은 실질적으로 낮출 수 있다는 것입니다. 적은 양의 쿼리 예산 (Query budget)만 사용하는 블랙박스 (Black-box) 설정에서 작동하는 우리의 공격은 모델 접근 권한이나 그래디언트 (Gradient) 정보 없이도 회피 가능한 콘텐츠를 자동으로 생성합니다. 우리는 여러 데이터셋과 상용 API 및 최첨단 오픈 소스 가드레일 (Guardrails)을 포함한 10개의 배포된 중재 시스템을 통해 이 공격을 평가합니다. 결과는 인간과 기계의 지각 사이에 놀라운 격차가 있음을 보여줍니다. 단 3번의 탐지기 쿼리만으로, 생성된 공격은 평가된 시스템 전반에서 탐지율을 1% 미만으로 유지하면서도 86% 이상의 인간 인식률을 달성했습니다. 우리는 더 나아가 성공적인 회피를 유도하는 타이포그래피 요인을 식별하기 위해 절제 연구 (Ablation studies)를 수행하고, 왜 현재의 중재 아키텍처가 이러한 신호를 포착하지 못하는지 분석하며, 실질적인 방어책을 논의합니다. 우리의 연구 결과는 오늘날의 LLM 기반 중재 생태계에 존재하는 근본적인 사각지대를 드러내며, 인간의 지각적 이해와 더 일치하는 방식으로 콘텐츠를 추론하는 중재 시스템의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기