arXiv논문2026. 06. 16. 12:16

FraudSMSWalker: SMS-to-Webpage 사기 탐지를 위한 에이전트형 거대 언어 모델 (Agentic LLMs) 벤치마킹

요약

SMS가 웹페이지로 유도하는 교차 채널 사기를 탐지하기 위한 새로운 벤치마크인 FraudSMSWalker를 소개합니다. URL이나 도메인 정보 같은 평판 단서를 배제하고, 모델이 웹페이지 콘텐츠와 SMS 문맥을 통해 증거 기반의 판단을 내릴 수 있는지 평가합니다.

핵심 포인트

URL/도메인 메타데이터를 마스킹하여 평판 지름길 의존성 제거
10개 서비스 시나리오, 699개의 이중 언어 체인 데이터셋 구축
9개의 웹 에이전트를 대상으로 증거 기반 사기 탐지 능력 평가
현재 에이전트들이 정상 사례의 재현율 유지에 어려움을 겪음을 확인

SMS 사기는 점점 더 교차 채널(cross-channel)화되고 있습니다. 메시지가 사용자를 웹페이지로 유도하며, 최종적인 위험은 SMS의 주장 내용이 페이지 콘텐츠 및 요청된 사용자 행동과 어떻게 일치하는지에 달려 있습니다. 그러나 기존의 평가 방식은 메시지만을 대상으로 하는 스미싱 (smishing) 분류에 집중하거나, 모델이 평판 지름길 (reputation shortcuts)에 의존할 수 있도록 URL 및 도메인 단서를 노출합니다. 이러한 격차를 해소하기 위해, 우리는 URL이 마스킹된 SMS-to-webpage 사기 판단을 위한 통제된 벤치마크인 \textbf{FraudSMSWalker}를 소개합니다. FraudSMSWalker는 10개의 서비스 시나리오에 걸쳐 332개의 사기 사례와 367개의 정상 사례를 포함하여 총 699개의 이중 언어 체인을 포함합니다. 모델에 보이는 입력은 SMS 문맥과 정제된 웹페이지 증거로 구성되며, 원본 URL, 호스트 (hosts), 도메인 (domains), IP, 리다이렉트 (redirects) 및 평판 메타데이터는 제공되지 않습니다. 또한 이 벤치마크는 서비스 문맥상 타당해 보이지만 사기 흐름에서도 나타날 수 있는 로그인, 결제, 인증 또는 계정 관리 요소가 포함된 웹페이지를 가진 까다로운 정상 사례들을 포함합니다. 우리는 마스킹된 브라우저-에이전트 프로토콜 하에서 9개의 웹 에이전트 (web agents)를 평가하고 URL 가시성 제거 실험 (ablations)을 수행합니다. 결과에 따르면 현재의 에이전트들은 의심스러운 단서를 탐지할 수는 있지만, 정상 사례에 대한 재현율 (recall)을 유지하는 데 어려움을 겪으며, 관찰된 증거에 의해 약하게 뒷받침되는 양성 예측을 생성하는 경우가 많습니다. 이러한 발견은 직접적인 평판 지름길이 억제되었을 때 웹 에이전트가 정확하면서도 증거에 기반한 (evidence-grounded) 사기 판단을 내릴 수 있는지 측정하는 벤치마크로서 FraudSMSWalker의 위치를 정립합니다. 관련 코드와 데이터셋은 \href{https://anonymous.4open.science/w/FraudMessageWalker-Bench}{익명 링크}에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FraudSMSWalker: SMS-to-Webpage 사기 탐지를 위한 에이전트형 거대 언어 모델 (Agentic LLMs) 벤치마킹

요약

핵심 포인트

댓글