arXiv논문2026. 06. 29. 11:08

DG^VoiC: 실제 콜센터 환경에서의 사기 조사를 위한 화자 클러스터링 (Speaker Clustering)

요약

보험 사기 조사를 위해 실제 콜센터 오디오에서 화자를 식별하는 DG^VoiC 프레임워크를 제안합니다. 음성 임베딩 추출과 코사인 유사도 기반 클러스터링을 통해 익명화된 통화 데이터 내에서 반복되는 화자를 효과적으로 연결합니다.

핵심 포인트

실제 콜센터 환경에 최적화된 음성 클러스터링 프레임워크 제시
민감 정보 익명화 및 슬라이딩 윈도우 임베딩 기술 적용
AMI 96%, ARI 95% 등 높은 성능 지표 달성
사기 조사 시 화자 일관성 확인을 위한 강력한 신호 제공

보험 사기는 비용이 많이 들고 운영상 까다로운 문제로 남아 있으며, 특히 많은 고객 상호작용이 최초 사고 접수 (FNOL, First Notice of Loss) 단계에서 시작되는 콜센터 워크플로우에서 더욱 그러합니다. 최근의 사기 탐지 방법들은 주로 정형 데이터 (structured data), 텍스트, 또는 이미지에 의존하고 있지만, 통화 전반에 걸쳐 반복되는 화자 식별 정보 (speaker identity)는 조사 신호로서 여전히 충분히 활용되지 못하고 있습니다. 본 논문은 익명화된 실제 콜센터 오디오에서 고객 검증 및 교차 프로필 화자 연결 (cross-profile speaker linking)을 위한 음성 클러스터링 프레임워크인 DG^VoiC를 제시합니다. 이 접근 방식은 민감 정보 정렬 익명화 (sensitive information-aligned anonymisation), 음성 중심 전처리 (speech-focused preprocessing), 슬라이딩 윈도우 화자 임베딩 추출 (sliding-window speaker embedding extraction), 그리고 코사인 유사도 (cosine similarity) 기반 클러스터링을 결합하여 실제 전화 통화 조건 하에서 반복되는 화자를 식별합니다. 이 방법은 121개의 녹음 파일을 통해 평가되었으며, 검증을 위해 22개의 인간 합의 화자 클러스터로 구성된 56개 샘플의 큐레이션된 참조 서브셋이 사용되었습니다. 최적의 설정은 96%의 AMI, 95%의 ARI, 98%의 완결성 (completeness), 100%의 동질성 (homogeneity), 그리고 99%의 V-measure를 달성했습니다. 이러한 결과는 화자 클러스터링이 분석가가 화자의 일관성을 확인하고 고객 전반에 걸쳐 반복되는 목소리를 드러내는 데 도움을 줌으로써, 사기 조사에 강력한 추가 신호를 제공할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DG^VoiC: 실제 콜센터 환경에서의 사기 조사를 위한 화자 클러스터링 (Speaker Clustering)

요약

핵심 포인트

댓글