GLiNER2-PII: 개인 식별 정보 추출을 위한 다국어 모델

현대 데이터 처리 시스템 전반에 걸쳐 개인 식별 정보(PII)의 신뢰할 수 있는 탐지 능력은 점점 더 중요해지고 있지만, 이 작업 자체는 여전히 어렵습니다. PII 범위는 이질적이고, 지역 의존적이며, 문맥 민감성이 높고, 종종 노이즈가 많거나 반정형화된 문서에 포함되어 있기 때문입니다. 본 논문에서는 GLiNER2를 기반으로 적응시키고, 42가지의 광범위한 PII 개체 유형을 문자-스팬 해상도에서 인식하도록 설계된 소규모 0.3B 파라미터 모델인 GLiNER2-PII를 제시합니다. 하지만 이러한 시스템을 학습시키는 것은 공유 가능한 주석 데이터의 부족과 대규모 실제 PII 수집에 관련된 개인 정보 보호 위험으로 인해 제약이 따릅니다. 이 문제를 해결하기 위해, 우리는 언어, 도메인, 형식 및 개체 분포 전반에 걸쳐 다양하고 현실적인 예시를 생성하는 제약 기반 생성 파이프라인을 사용하여 4,910개의 주석 처리된 다국어 합성 코퍼스를 구축했습니다. 까다로운 SPY 벤치마크에서 GLiNER2-PII는 OpenAI Privacy Filter와 세 가지 GLiNER 기반 탐지기를 포함한 다섯 개 비교 시스템 중 가장 높은 스팬 수준 F1 점수를 달성했습니다. 우리는 오픈 PII 탐지 시스템의 추가 연구 및 실제 배포를 지원하기 위해 이 모델을 Hugging Face에 공개적으로 출시합니다.

Insights

GLiNER2-PII: 개인 식별 정보 추출을 위한 다국어 모델

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인