포스터: 터키어 전화 사기 탐지의 오디오 기반 한계 탐색
요약
터키어와 같은 저자원 언어 환경에서의 사기 전화 탐지를 위한 멀티모달 데이터셋과 LLM의 성능을 연구합니다. Gemini, GPT-4o, Qwen 모델을 활용해 오디오 및 전사 데이터 입력 방식에 따른 탐지 효율성을 분석했습니다.
핵심 포인트
- 터키어 사기 탐지를 위한 최초의 공개 멀티모달 데이터셋 도입
- Gemini, GPT-4o, Qwen 등 7개 LLM 모델 성능 평가
- 직접 오디오 처리보다 전사(transcript) 기반 입력이 더 우수한 성능 기록
- 저자원 언어 환경을 위한 포용적인 AI 안전 연구의 필요성 강조
사기 전화는 전 세계적으로 취약한 공동체를 착취하고 있지만, 탐지에 관한 연구는 거의 독점적으로 영어 및 기타 고자원 언어(high-resource languages)에 집중되어 왔습니다. 터키어와 같은 저자원 환경(low-resource settings)에서는 주석이 달린 데이터가 부족하고 기술적 방어 수단이 제한적이어서 탐지가 특히 어렵습니다. 본 연구는 사기 및 정상 대화의 정렬된 오디오-전사(audio-transcript) 쌍 100개로 구성된 최초의 공개 멀티모달(multi-modal) 데이터셋을 도입함으로써, 대규모 언어 모델(LLMs)이 터키어 사기 탐지를 어떻게 지원할 수 있는지 조사합니다. 우리는 세 가지 모델 제품군에 걸친 7개의 LLM인 Gemini 2.5 (Flash, Flash-Lite, Pro), GPT-4o, 그리고 Qwen (Max, Plus, Turbo)을 세 가지 입력 조건(원시 오디오, 자동 음성-텍스트 변환(automatic speech-to-text) 전사, 원어민이 정제한 전사) 하에서 평가합니다. 연구 결과에 따르면, 전사 기반 입력이 직접적인 오디오 처리보다 일관되게 우수한 성능을 보였으며, 인간이 교정한 전사와 교정되지 않은 전사는 유사한 성능을 보였습니다. 저자원 언어와 실제 세계의 위협에 초점을 맞춤으로써, 본 연구는 문화적 및 언어적으로 포용적인 AI 안전(AI safety) 연구와 사기 방지를 위한 더욱 강력한 멀티모달 시스템의 시급한 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기