우리는 LLM 검색 에이전트를 얼마나 신뢰할 수 있는가? 웹 콘텐츠 조작에 대한 승인 취약성 측정
요약
LLM 기반 검색 에이전트가 웹 콘텐츠 조작에 의해 잘못된 정보를 승인하게 되는 '승인 오염' 취약성을 측정하는 프레임워크 SearchGEO를 제안합니다. 13개 LLM 백엔드를 평가한 결과, 모델 제품군마다 취약성 패턴이 다르며 Claude는 과도한 거부, GPT는 과도한 신뢰 경향을 보임을 확인했습니다.
핵심 포인트
- SearchGEO 프레임워크를 통한 LLM 검색 에이전트의 승인 오염 측정
- 모델 제품군별로 상이한 공격 성공률(ASR) 및 취약성 패턴 발견
- Claude는 과도하게 거부하고, GPT는 과도하게 신뢰하는 특성 확인
- 적대적 웹 환경에서 백엔드 안전성 평가의 중요성 강조
대규모 언어 모델 (LLM) 기반의 검색 에이전트는 사용자를 대신하여 오픈 웹 (open-web) 콘텐츠를 합성하여 실행 가능한 권장 사항을 생성하며, 이 과정에서 공격자가 게시한 페이지가 승인된 주장으로 변질될 위험을 초래합니다. 우리는 웹 증거 조작 파이프라인, 5가지 모드의 공격 분류 체계, 그리고 다수의 출력 수준 지표를 결합하여 LLM 기반 웹 검색 에이전트의 승인 오염 (endorsement corruption)을 측정하기 위한 통제된 평가 프레임워크인 SearchGEO를 소개합니다. 우리는 13개의 LLM 백엔드를 각각 308개의 사례에 대해 평가했습니다. 결과에 따르면 취약성 패턴은 백엔드마다 다르게 나타납니다. 전체 공격 성공률 (ASR)은 Claude-Sonnet-4.6의 0.0%부터 Gemini-3-Flash의 31.4%까지 분포하며, 가장 강력한 공격 모드는 모델 제품군(model family)마다 다르고, 동일한 배포 스캐폴드 (deployment scaffold)라도 서로 다른 백엔드에서는 ASR을 증폭시키거나 감소시킬 수 있습니다. 승인이 설치 명령어가 되는 보조 에이전트 기술 탐사 (agent-skill probe)를 통해, 평소 견고했던 백엔드들 사이에서도 뚜렷한 차이가 드러났습니다. Claude는 과도하게 거부(over-rejects)하는 반면, GPT는 과도하게 신뢰(over-trusts)합니다. 이러한 발견은 적대적 검색 콘텐츠 환경에서의 권장 신뢰성을 백엔드 안전성 평가의 핵심 차원으로 다루어야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기