GLiNER2-PII: 개인 식별 정보 추출을 위한 다국어 모델
요약
본 논문은 개인 식별 정보(PII) 추출의 어려움(이질적, 지역 의존적, 문맥 민감성 등)을 해결하기 위해 GLiNER2를 기반으로 개발된 소규모 다국어 모델인 GLiNER2-PII를 소개합니다. 이 모델은 42가지 광범위한 PII 개체 유형을 문자-스팬 해상도에서 인식하도록 설계되었습니다. 연구진은 주석 데이터 부족 문제를 해결하기 위해 제약 기반 생성 파이프라인으로 다국어 합성 코퍼스를 구축했으며, 까다로운 SPY 벤치마크에서 최고 성능을 달성하여 오픈 소스로 공개했습니다.
핵심 포인트
- GLiNER2-PII는 42가지 광범위한 PII 개체 유형을 인식하도록 설계된 경량의 다국어 모델이다.
- 주석 데이터 부족 문제를 해결하기 위해 제약 기반 생성 파이프라인을 사용하여 합성 다국어 코퍼스를 구축했다.
- SPY 벤치마크에서 OpenAI Privacy Filter와 기존 GLiNER 기반 탐지기를 포함한 여러 시스템 중 최고 수준의 F1 점수를 기록했다.
- 모델과 데이터는 오픈 소스로 공개되어 커뮤니티의 PII 탐지 연구 및 실제 배포를 지원한다.
현대 데이터 처리 시스템 전반에 걸쳐 개인 식별 정보(PII)의 신뢰할 수 있는 탐지 능력은 점점 더 중요해지고 있지만, 이 작업 자체는 여전히 어렵습니다. PII 범위는 이질적이고, 지역 의존적이며, 문맥 민감성이 높고, 종종 노이즈가 많거나 반정형화된 문서에 포함되어 있기 때문입니다. 본 논문에서는 GLiNER2를 기반으로 적응시키고, 42가지의 광범위한 PII 개체 유형을 문자-스팬 해상도에서 인식하도록 설계된 소규모 0.3B 파라미터 모델인 GLiNER2-PII를 제시합니다. 하지만 이러한 시스템을 학습시키는 것은 공유 가능한 주석 데이터의 부족과 대규모 실제 PII 수집에 관련된 개인 정보 보호 위험으로 인해 제약이 따릅니다. 이 문제를 해결하기 위해, 우리는 언어, 도메인, 형식 및 개체 분포 전반에 걸쳐 다양하고 현실적인 예시를 생성하는 제약 기반 생성 파이프라인을 사용하여 4,910개의 주석 처리된 다국어 합성 코퍼스를 구축했습니다. 까다로운 SPY 벤치마크에서 GLiNER2-PII는 OpenAI Privacy Filter와 세 가지 GLiNER 기반 탐지기를 포함한 다섯 개 비교 시스템 중 가장 높은 스팬 수준 F1 점수를 달성했습니다. 우리는 오픈 PII 탐지 시스템의 추가 연구 및 실제 배포를 지원하기 위해 이 모델을 Hugging Face에 공개적으로 출시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기