LLM을 위한 Honeyquest: AI 공격자를 위한 사이버 기만(Cyber Deception)의 재고
요약
LLM 공격자가 사이버 기만(Cyber Deception) 전략에 어떻게 반응하는지 평가하는 Honeyquest 프레임워크를 소개합니다. 연구 결과, LLM은 인간과 달리 기만 트랩을 인식하면서도 실제로는 이를 악용하는 '인식-행동 간극'을 보이며, 인간 중심의 방어 가설이 AI에게는 적용되지 않음을 입증했습니다.
핵심 포인트
- LLM 공격자는 인간보다 기만 트랩에 빠질 확률이 현저히 높음
- 인간에게 나타나는 방어적 주의 분산 효과가 LLM에서는 관찰되지 않음
- 트랩을 인식하고도 그대로 악용하는 '인식-행동 간극' 발견
- AI 네이티브 능동 방어 프레임워크 연구의 필요성 강조
사이버 기만(Cyber Deception)의 경험적 토대는 인간 중심의 가설에 의존하고 있지만, 자율적이고 AI 기반인 공격자의 급격한 등장은 이러한 토대가 AI 에이전트에게도 전이될 수 있는지에 대해 의문을 제기합니다. 이를 해결하기 위해, 우리는 대규모로 LLM 공격자의 판단력을 평가하기 위해 Honeyquest 도구에서 변형된 자동화된 평가 프레임워크를 도입합니다. 우리의 21개 LLM 코호트(cohort)는 10개의 제공업체, 다양한 아키텍처 및 전문화 분야, 오픈 웨이트(open-weight) 및 클로즈드 웨이트(closed-weight) 모델, 그리고 8B에서 1T 이상의 파라미터 규모를 아우릅니다. 우리는 동일한 174개의 정찰 쿼리(reconnaissance queries) 세트에 대해 47명의 참가자로 구성된 인간 기준점(baseline)과 이 LLM 코호트(총 10,962개의 응답 생성)의 성능을 비교 평가했습니다. 우리의 경험적 평가 결과는 LLM을 별개의 공격자 클래스로 확립하는 세 가지 주요 발견을 보여줍니다: (1) 코호트 내의 모든 모델이 인간 공격자보다 현저히 높은 비율로 기만 트랩(deceptive traps)에 빠집니다; (2) 인간에게서 관찰되는 방어적 주의 분산 효과(defensive attention-diversion effect)는 우리의 LLM 코호트에서 통계적으로 나타나지 않습니다; (3) LLM이 추론 과정에서는 트랩 인식을 성공적으로 명시하지만, 그럼에도 불구하고 73.4%의 확률로 기만 요소를 그대로 악용하는 결정적인 인식-행동 간극(recognition-action gap)이 존재합니다. 21개 모델 전체에 걸쳐, 추론 텍스트 내의 트랩 인식은 트랩에 빠지는 행동을 예측하지 못했습니다 (Spearman $r = +0.08$, $p = 0.73$). 궁극적으로, 이러한 발견은 인간 중심의 기만 가설이 AI 공격자에게 신뢰성 있게 전이되지 않음을 입증하며, AI 네이티브 능동 방어(AI-native active defense) 프레임워크에 대한 새로운 연구의 절실한 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기