arXiv논문2026. 06. 19. 11:50

REDACT: 개인정보(PII) 탐지를 위한 체계적으로 제어된 다국어 벤치마크

요약

개인정보(PII) 탐지 성능을 체계적으로 평가하기 위한 다국어 벤치마크인 REDACT를 제안합니다. 25개 언어와 51개 엔티티 유형을 포함하며, 다양한 생성 축을 통해 기존 탐지기들의 한계를 정밀하게 분석합니다.

핵심 포인트

25개 언어와 51개 엔티티 유형을 포함한 대규모 다국어 PII 벤치마크 구축
9가지 생성 축을 제어하여 도메인, 난이도, 언어 등 정밀한 평가 가능
규칙 기반 탐지기 대비 LLM 탐지기의 높은 견고성 확인
민감도 계층 할당이 PII 탐지에서 가장 어려운 과제임을 입증

개인 식별 정보 (PII) 탐지를 위한 벤치마크 인프라는 여전히 제한적입니다. 기존 코퍼스(corpora)는 소수의 엔티티(entity) 유형만을 다루고, 임시방편적인 생성 조건을 사용하며, 어떤 표면적 조건이 탐지기 실패를 유발하는지 보여주지 못합니다. 우리는 13,427개의 레코드, 324,078개의 엔티티 주석(annotations), 51개의 엔티티 유형, 4,127개의 표면 형태(surface-form) 패턴, 그리고 9개의 문자를 사용하는 25개 언어로 구성된 체계적으로 제어된 다국어 PII 벤치마크인 REDACT를 제시합니다. Strength-2 커버링 어레이(covering-array) 샘플러는 도메인(domain), 형식(format), 난이도(difficulty), 길이(length), 밀도(density), 코드 스위칭(code-switching), 언어(language), 인접성(adjacency), 공기(co-occurrence)라는 9가지 생성 축을 제어합니다. 세 가지 엔티티 수준 메타데이터 필드(공개 상태, 공개 형태, 그리고 GDPR에 부합하는 민감도 계층)는 총합 또는 유형별 F1 점수를 넘어선 계층화된 평가를 가능하게 합니다. 전체 벤치마크로부터, 우리는 1,000개의 레코드로 구성된 잠금(locked) 및 언어 계층화 샘플을 통해 5개의 탐지기(Presidio, GLiNER, OpenAI Privacy Filter, GPT-4.1, Claude Sonnet 4.6)를 평가합니다. 총합 F1 점수는 아키텍처에 따른 실패 구조를 가려버립니다. 규칙 기반(rule-based) 탐지기는 HIGH-민감도 카테고리(재현율 0.07)와 비축자적(non-verbatim) 공개 형태를 포함하여 가장 위험도가 높은 데이터에서 저조한 성능을 보이는 반면, LLM 탐지기들은 HIGH 계층이 가장 강력한 민감도 구간임에도 불구하고 더 견고한 모습을 유지합니다. 3개 모델을 이용한 참조 없는(reference-free) LLM-as-judge 평가 결과는 민감도 계층 할당이 이 작업에서 가장 어려운 축임을 확인해 줍니다. 우리는 벤치마크, 스키마(schema), 프롬프트(prompts), 그리고 계층화된 평가 하네스(harness)를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

REDACT: 개인정보(PII) 탐지를 위한 체계적으로 제어된 다국어 벤치마크

요약

핵심 포인트

댓글