arXiv논문2026. 06. 18. 11:07

RedactionBench

요약

LLM의 개인정보(PII) 비식별화 성능을 맥락적 무결성 관점에서 평가하기 위한 새로운 벤치마크인 RedactionBench를 소개합니다. 기존 NER 방식의 한계를 극복하기 위해 문자 수준 지표인 R-Score를 도입하였으며, 다양한 모델의 맥락적 비식별화 성능을 분석했습니다.

핵심 포인트

단순 개체명 인식을 넘어 맥락에 따른 비식별화 평가 필요성 강조
11개 도메인, 200개 문서를 포함한 수동 주석 기반 벤치마크 RedactionBench 공개
형식적 차이를 배제하고 의미론적 유사성을 측정하는 R-Score 지표 도입
프런티어 모델 및 SLM 등 다양한 모델의 맥락적 비식별화 한계 확인
인간 평가를 통해 맥락적 프라이버시의 주관성과 모호성 입증

대규모 언어 모델(Large Language Models, LLM)은 개인 식별 정보(Personally Identifiable Information, PII)의 비식별화(Redaction)가 필요한 민감한 영역에 점점 더 많이 적용되고 있습니다. PII를 비식별화하는 것은 데이터 정제(Data cleaning)의 전제 조건이지만, 기존의 벤치마크들은 추출 메커니즘(Extraction mechanics)과 프라이버시 의미론(Privacy semantics)을 혼동하고 있습니다. 공공 전화번호는 의료 기록에 포함된 전화번호와 동일하지 않습니다. 정보가 위반에 해당하는지 여부는 해당 정보를 누가, 왜, 어떤 맥락에서 보유하고 있는지에 따라 크게 달라지며, 이는 비식별화(Redaction)를 단순한 개체명 인식(Entity recognition)과 근본적으로 구분 짓는 요소입니다. 맥락적 무결성(Contextual integrity)에 기반하여, 우리는 주로 실제 출처에서 가져온 11개 도메인에 걸친 200개의 다양한 문서로 구성된 수동 주석(Manually annotated) 벤치마크인 RedactionBench를 소개합니다. 또한, 우리는 의미론적으로 유사한 비식별 처리를 동일하게 취급하고, 전화번호에 대한 다양한 마스킹 스타일과 같은 얕은 형식적 선택(Shallow formatting choices)을 무효화하는 새로운 문자 수준(Character-level) 지표인 R-Score를 도입합니다. 개체명 인식(Named Entity Recognition, NER) 모델, 개체 추출 소형 언어 모델(Small Language Models, SLM), 그리고 에이전트 도구(Agentic tools)를 갖춘 프런티어 모델(Frontier models) 전반에 걸친 평가 결과, 맥락적 비식별화(Contextual redaction)는 여전히 해결되지 않은 문제임을 보여줍니다. 80명 이상의 사용자를 대상으로 RedactionBench에서 수행한 인간 평가(Human evaluation)는 프라이버시 인식의 극명한 이분법을 드러냅니다. 주석가들은 필수적 비식별화(Mandatory redactions, 89.4%)와 안전한 텍스트 보존(Safe text preservations, 94.1%)에 대해서는 타겟 라벨과 일치하는 합의를 보였으나, 맥락적 비식별화(Contextual redactions)에 대해서는 합의에 실패했습니다(47.7%). 이러한 변동성은 맥락적 프라이버시의 주관적인 특성을 입증하며, 맥락적 모호성을 엄격한 정밀도(Precision)로부터 분리하는 R-Score의 필요성을 뒷받침합니다. 우리는 여러 계열의 35개 모델을 비교하여 PII 비식별화 성능을 보고합니다. 마지막으로, 우리는 향후 프라이버시 보존 시스템(Privacy-preserving systems)의 기준점(Baseline)을 설정하기 위해 RedactionBench를 공개하며, 이를 통해 효율적인 모델 설계와 표준화된 평가가 영감을 받기를 희망합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RedactionBench

요약

핵심 포인트

댓글