전화가 울립니다. 당신은 전화를 받습니다. 수화기 너머로 당신의 딸이 비명을 지르고 있습니다. 한 남자의 목소리가 들려옵니다. 그가 아이를
요약
AI 기술을 이용한 음성 복제(Voice Cloning) 사기가 급증하며 심각한 사회적 위협이 되고 있습니다. 사기꾼들은 온라인에서 얻은 3초 분량의 오디오만으로 피해자의 목소리를 완벽하게 복제하여, 가족이나 지인에게 전화를 걸어 금전적인 이득을 취합니다. 기존의 딥페이크 탐지 기술들은 전화 통화와 같은 저품질 음성 환경에서는 작동하지 않아 방어책 마련이 시급한 상황입니다.
핵심 포인트
- AI 목소리 복제 사기가 급증하며, 전 세계 성인 10명 중 1명이 이미 표적이 되고 있습니다.
- 사기꾼들은 온라인 영상에서 얻은 단 3초 분량의 오디오만으로도 피해자의 목소리를 완벽하게 복제할 수 있습니다.
- 전화 통화 환경의 저품질 음성 특성 때문에 기존의 딥페이크 탐지 기술로는 방어하기 어렵습니다.
- 개인이 온라인에 공유하는 모든 영상은 사기꾼들에게 활용될 수 있는 '원재료'가 됩니다.
전화가 울립니다. 당신은 전화를 받습니다. 수화기 너머로 당신의 딸이 비명을 지르고 있습니다. 한 남자의 목소리가 들려옵니다. 그가 아이를 데리고 있습니다. 그는 돈을 원합니다. 지금 당장 말입니다.
그녀의 울음소리가 들립니다. 그것은 그녀의 목소리입니다. 그녀의 정확한 목소리입니다. 목소리가 진짜이기 때문에 그 공포는 진짜처럼 느껴집니다.
당신의 남편이 침실로 달려갑니다. 아이는 잠들어 있습니다.
전화기 너머의 목소리는 인공지능 (AI)이었습니다. 목소리를 복제 (Clone) 하는 데는 3초 분량의 오디오만 있으면 됩니다. 온라인에 게시된 어떤 영상이라도 충분합니다.
이것은 영화가 아닙니다. 애리조나 (Arizona)의 한 실제 어머니에게 일어난 일입니다. 그녀는 배경에서 딸과 똑같이 들리는 목소리가 도움을 요청하는 동안, 100만 달러를 요구받았습니다.
그리고 이것은 어디에서나 일어나고 있습니다.
AI 목소리 복제 (Voice cloning) 사기가 1년 만에 1,300% 증가했습니다. 전 세계 성인 10명 중 1명이 이미 표적이 되었습니다. FBI는 딥페이크 (Deepfake) 사기로 인한 손실이 2025년에 수십억 달러에 달했다고 밝혔습니다. 그리고 공격은 매달 더 정교해지고 있습니다.
작동 방식은 다음과 같습니다.
사기꾼은 온라인에서 당신의 목소리가 담긴 영상을 찾습니다. 어떤 영상이든 상관없습니다. 생일 영상, 업무 발표 영상, 인스타그램 (Instagram) 스토리 등 무엇이든 가능합니다. 3초면 충분합니다. 그들은 이를 목소리 복제 (Voice cloning) 도구에 입력합니다. 몇 분 안에, 그들은 당신의 목소리, 어조, 억양, 웃음소리까지 완벽하게 복제한 복사본을 갖게 됩니다.
그러고 나서 그들은 당신의 어머니, 아버지, 배우자, 혹은 자녀에게 전화를 겁니다.
런던 (London)의 한 금융 종사자는 CEO와 세 명의 동료로부터 화상 전화를 받았습니다. 그들 모두는 AI였습니다. 얼굴은 가짜였고, 목소리도 가짜였으며, 회의 자체도 가짜였습니다. 그는 무슨 일이 일어났는지 아무도 알아차리기 전에 2,500만 달러를 송금했습니다.
한 19세 소년은 여동생이 위험에 처했다는 전화를 받았습니다. 그는 여동생의 목소리를 들었습니다. 그는 1,000달러를 지불했습니다. 여동생은 무사했습니다. 목소리가 복제된 것이었습니다.
이틀 전 arXiv에 이 논문을 발표한 연구진은 사기 그 자체보다 더 심각한 것을 발견했습니다.
AI 안전 (AI safety) 산업 전체가 가짜 정치 영상, 대통령의 가짜 영상, 후보자들의 가짜 영상을 탐지하기 위한 딥페이크 (Deepfake) 탐지기를 만드는 데 수년을 보냈습니다. 모든 이들이 대비해 온 위협 말입니다.
그 위협은 결코 찾아오지 않았습니다. 단 하나의 선거도 딥페이크 (Deepfake) 정치 영상에 의해 결정되지 않았습니다.
실제로 찾아온 위협은 전화 통화 중 발생하는 음성 복제 (Voice Cloning)였습니다. 그리고 거의 아무도 이에 대한 방어책을 구축하지 않았습니다. 기존에 존재하는 탐지기들은 전화 통화에서 작동하지 않는데, 이는 전화 오디오가 압축되고 왜곡되며 저품질이기 때문입니다. 탐지를 가장 어렵게 만드는 바로 그 조건들이 사기꾼들이 사용하는 조건입니다.
사람들의 53%는 일주일에 적어도 한 번은 온라인에 자신의 목성을 공유합니다. 당신이 게시하는 모든 영상은 당신이 되고 싶어 하는 누군가에게 3초 분량의 원재료 (Raw material)가 됩니다.
당신의 가족조차 의심하지 않을 것입니다. 왜냐하면 그것이 정확히 당신의 목소리처럼 들리기 때문입니다.
http://arxiv.org/abs/2605.12075
AI 자동 생성 콘텐츠
본 콘텐츠는 X @heynavtoor (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기