arXiv논문2026. 06. 08. 10:34

다회차 스미싱 탐지를 위한 확장된 합성 대화 데이터셋

요약

다회차 스미싱 탐지를 위해 개선된 합성 대화 데이터셋인 COVA-X를 제안합니다. 기존 데이터셋의 오염 및 레이블 불일치 문제를 해결하여 10,985개의 대화로 확장하였으며, 이를 통해 Longformer 모델이 XGBoost보다 우수한 성능을 보임을 입증했습니다.

핵심 포인트

COVA-X 데이터셋을 통한 스미싱 탐지 성능 향상
데이터 정제를 통해 Longformer가 XGBoost를 능가함 확인
트랜스포머 모델의 성능을 위한 대규모 코퍼스의 필요성 입증
레이블 수정률을 49.8%에서 3.9%로 대폭 개선

우리의 이전 연구는 3,201개의 레이블이 지정된 대화로 구성된 합성 생성 다회차 대화 스미싱 데이터셋인 COVA를 소개하였으며, 8개의 모델에 걸쳐 베이스라인 탐지 벤치마크를 구축했습니다. TF-IDF 특징을 사용한 XGBoost가 72.5%의 정확도와 0.691의 macro F1으로 가장 좋은 성능을 달성한 반면, 트랜스포머 (Transformer) 모델들은 입력 절단 (input truncation) 및 불충분한 학습 데이터로 인해 성능이 저조했습니다. 본 연구에서는 첫 번째 반복 과정에서 발생했던 오염 (contamination), 레이블 불일치 (label mismatch), 단계 지시 유출 (stage-direction bleed), 프롬프트 설계 실패 (prompt-design failures) 문제를 해결한 개선된 생성 파이프라인을 통해 제작된, 8가지 노인 대상 사기 카테고리를 아우르는 10,985개의 대화로 확장된 데이터셋인 COVA-X를 제시합니다. 확장된 데이터셋으로 모든 분류기 (classifier)를 재학습시킨 결과, 본 연구의 핵심적인 발견을 도출했습니다: 이제 Longformer가 모든 평가 지표에서 XGBoost를 능가하여, XGBoost의 78.43% 정확도 및 0.7563 macro F1과 비교해 79.71%의 정확도와 0.7786 macro F1을 달성했습니다. 이는 트랜스포머 (Transformer) 모델이 문맥적 이점 (contextual advantages)을 실현하기 위해서는 더 큰 대화 코퍼스 (conversational corpora)가 필요함을 직접적으로 확인해 줍니다. 또한 우리는 레이블 수정률을 49.8%에서 3.9%로 12.7배 개선한 것, 가상 납치 (virtual-kidnapping) 아티팩트 (artifact) 비율을 67.1%에서 46.5%로 줄인 구조적 개입, 그리고 사기 카테고리가 메커니즘적으로 일관된 방식으로 결과에 영향을 미친다는 것을 보여주는 사기 유형별 결과 분석을 포함한 품질 라이프사이클 (quality life-cycle)을 기록했습니다. 정제 전후의 민감도 분석 (sensitivity analysis)을 통해 데이터셋 정제가 세 가지 분류기 아키텍처 (classifier architectures) 모두에서 실제 레이블 관련 신호 (label-relevant signal)를 회복함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다회차 스미싱 탐지를 위한 확장된 합성 대화 데이터셋

요약

핵심 포인트

댓글