arXiv논문2026. 06. 30. 12:28

DialogPII: 개인정보 탐지를 위한 합성 대화 전사본 기반의 다국어 데이터셋

요약

개인정보(PII) 탐지 및 비식별화를 지원하기 위해 LLM으로 생성된 다국어 합성 대화 데이터셋 DialogPII를 제안합니다. 11개 언어와 8가지 시나리오를 포함하며, 텍스트와 음성 전사본이 정렬된 고품질 자원을 제공합니다.

핵심 포인트

11개 언어 및 8가지 다양한 상호작용 시나리오 지원
LLM 기반 합성 데이터 생성 및 수동 큐레이션 적용
텍스트와 음성(TTS/Whisper)이 정렬된 다국어 데이터셋
다국어 개체명 인식(NER) 모델 및 벤치마크 결과 공개

의료 또는 사회 과학과 같은 영역에서 수집된 대화 데이터는 연구 및 자동화된 분석을 위한 가치 있는 자원입니다. 그러나 책임 있는 데이터 공유를 위해서는 개인의 프라이버시를 보호하기 위해 개인 식별 정보(PII) 및 민감한 정보의 탐지와 제거가 필요합니다. 자동 비식별화 (de-identification) 시스템의 개발 및 평가를 지원하기 위해, 본 연구에서는 개인정보 탐지를 위한 합성 대화 및 음성 유도 전사본(speech-derived transcripts)으로 구성된 다국어 데이터셋인 DialogPII를 제시합니다. DialogPII는 8가지 상호작용 시나리오(긴급 전화, 의료 문진 인터뷰, 치료 세션, 보험 통신, 고객 지원, AI 지원 대시보드 관련 임상 인터뷰, 경찰 보고서, 그룹 치료 토론), 19가지 엔티티 (entity) 유형, 그리고 11개 언어(영어, 아랍어, 핀란드어, 프랑스어, 독일어, 힌디어, 이탈리아어, 폴란드어, 포르투갈어, 스페인어, 터키어)를 다룹니다. 대화는 대규모 언어 모델 (LLM)을 사용하여 반자동으로 생성되었으며, 타당성과 다양성을 위해 수동으로 큐레이션되었고, 국가 및 도시별 맥락에 맞게 현지화되었습니다. 모든 대화는 추가적으로 텍스트 음성 변환 (TTS) 합성을 통해 음성으로 변환되었고, Whisper를 통해 전사되었으며, 자동 투영 (automatic projection) 및 수동 교정을 통해 주석 (annotation)이 달렸습니다. 이를 통해 모든 언어에 걸쳐 정렬된 텍스트 및 음성 유도 자원을 생성했습니다. 나아가 우리는 베이스라인 다국어 개체명 인식 (NER) 모델을 공개하며, 주석자 간 일치도 (inter-annotator agreement) 분석, 번역 품질 평가, 주석 투영 평가, 그리고 트랜스포머 (transformer) 기반 시퀀스 레이블링 (sequence labeling) 모델을 이용한 벤치마크 실험을 통해 기술적 검증을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DialogPII: 개인정보 탐지를 위한 합성 대화 전사본 기반의 다국어 데이터셋

요약

핵심 포인트

댓글