OpenAI 프라이버시 필터 vs GLiNER: 600 PII 샘플 평가

두 모델은 모두 오픈 웨이트이며, 로컬 CPU 워크스테이션에서 실행되며 텍스트 내 PII(개인정보) 를 감지합니다. 제가 발견한 내용을 간단히 정리해 드립니다.

GLiNER large-v2.1 은 약 3 억개 파라미터로, 제로 샷 (zero shot) 방식이며 추론 시 엔티티 타입을 평문 문자열로 전달합니다.

OpenAI/privacy-filter 는 총 15 억개 파라미터이지만, 희소 MoE(혼합 전문가 모델) 덕분에 한 번의 전파 과정에서 약 5 천만개만 활성화됩니다.

실제 CPU 환경에서 OpenAI/privacy-filter 는 약 2.8 샘플/초, GLiNER large 는 약 1.1 샘플/초로 실행되었습니다.

평가 데이터는 ai4privacy/pii-masking-400k 에서 가져온 영어 400 개 + 다국어 200 개의 샘플이며, 총 6 가지 PII 카테고리를 포함합니다.

핵심 문제: OpenAI/privacy-filter 는 GPT 스타일 BPE 토크나이제이션을 사용하여 대부분의 토큰 앞에 공백을 추가합니다. 따라서 토크인 오프셋을 문자열 스페인 (span) 으로 디코딩할 때 모든 것이 1 자자 오차가 발생합니다. 엄격한 정밀 매칭 (strict exact match) 을 사용했을 때 OpenAI/privacy-filter 는 매우 나쁜 점수를 받습니다. 그러나 경계 중첩 (boundary overlap, 임의의 문자열 중첩, 올바른 라벨) 을 사용하면 오히려 전반적으로 승리합니다.

영어 Macro F1:

모델	엄격	경계	부분
GLiNER large-v2.1	0.367	0.416	0.392
OpenAI/privacy-filter	0.155	0.498	0.326

OpenAI/privacy-filter 의 0.34 엄격-경계 간격은 실제 누락이 아닌 토크나이저 오프셋 때문입니다.

경계 기준 카테고리별 평가에서 OpenAI/privacy-filter 는 PERSON, EMAIL, PHONE, DATE 를 승리했습니다. GLiNER 는 ADDRESS 를 승리했습니다. EMAIL 은 거의 해결됨 (영어 0.987, 다국어 1.000).

GLiNER 의 임계값 튜닝이 중요합니다. 기본값 0.5 는 F1 점수를 놓치고 있습니다. 이 데이터셋에 있어 0.7 이 가장 좋았으며, 기본값보다 약 8% 더 높은 F1 점수를 얻었습니다.

기억력 (recall) 을 최우선으로 하고 싶다면 (예: 수정이 허용되지 않는 경우), GLiNER 를 선택하세요. 정밀도 (precision) 와 빠른 CPU 성능을 원한다면 OpenAI/privacy-filter 를 선택하세요. 8 가지 기본 엔티티 타입 외에 커스텀 엔티티 타입이 필요하면 GLiNER 의 제로 샷 인터페이스가 유일한 옵션입니다.

알아두어야 할 불편한 점: OpenAI/privacy-filter 는 trust_remote_code=True 와 transformers 의 개발 브랜치를 필요로 합니다. 모델 클래스는 아직 안정적 릴리스에 포함되지 않았습니다.

전체 숫자, 다국어 분해, 임계값 스윕, 모든 코드는 아래 주석에 있습니다 👇

공개: 저는 Neo AI Engineer 에서 일하며 평가 파이프라인은 Neo 가 단일 프롬프트로 구축하고 실행했습니다. 방법론을 검토하고 결과를 검증한 후 게시했습니다. 숫자와 발견은 독립적입니다.

Insights

OpenAI 프라이버시 필터 vs GLiNER: 600 PII 샘플 평가

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인