arXiv논문2026. 05. 26. 12:50

아키텍처 복잡성을 넘어선 미세 조정 (Fine-Tuning): DeBERTa를 이용한 PIIBench에서의 광범위한 PII 탐지

요약

PIIBench를 활용하여 DeBERTa 모델의 개인 식별 정보(PII) 탐지 성능을 연구했습니다. 복잡한 계층적 모델보다 직접적인 토큰 분류 미세 조정 방식이 다양한 데이터셋에서 더 높은 F1 점수를 기록하며 우수성을 입증했습니다.

핵심 포인트

DeBERTa 기반 직접 미세 조정이 PII 탐지에서 가장 높은 성능 달성
복잡한 아키텍처보다 단순한 미세 조정과 데이터가 성능에 더 기여
82개 엔티티 유형 중 다수에서 직접 미세 조정 방식이 승리
PIIBench를 통한 다중 소스 데이터셋 기반의 광범위한 탐지 연구

개인 식별 정보 (PII) 탐지 시스템은 종종 좁은 소스 또는 도메인 경계 내에서 학습되어, 이질적인 텍스트에 배포될 때 커버리지(Coverage)가 제한되는 경우가 많습니다. 본 연구에서는 10개의 소스 데이터셋에 걸쳐 82개의 유지된 엔티티(Entity) 유형을 아우르는, 수정된 다중 소스 PIIBench 준비 과정을 통한 모델 미세 조정 (Fine-tuning)을 연구합니다. 우리는 세 가지 DeBERTa 기반 접근 방식을 평가합니다: 직접적인 토큰 분류 (Token classification) 미세 조정, 소스 조건부 계층적 모델 (Source-conditioned hierarchical model, SC+H), 그리고 3단계 커리큘럼 확장 (Three-phase curriculum extension, SC+H+Curr) 방식입니다. 재현 가능한 5,000개 레코드의 홀드아웃(Held-out) 하위 집합 (test_5k)에서 발표된 8개의 비교 시스템과 대조했을 때, 직접 미세 조정된 DeBERTa는 0.6476의 F1 점수를 달성한 반면, SC+H와 커리큘럼 변형 모델은 각각 0.5899와 0.2772를 기록했습니다. 가장 강력한 기존 비교 시스템은 0.1723에 그쳤습니다. 초기 검증 단계에서는 SC+H가 유리하게 나타났기 때문에, 우리는 100,002개의 전체 홀드아웃 분할 데이터에 대해 최종 스트림 평가 (Streamed evaluation)를 수행했습니다. 그 결과 직접 미세 조정 방식이 여전히 우수함을 확인하였으며, SC+H의 0.5894 대비 0.6455의 F1 점수를 달성했습니다. 엔티티 수준의 분석에 따르면, 직접 미세 조정은 서포트 가중 엔티티 F1 (Support-weighted entity F1) 기준으로 82개의 세부 엔티티 유형 중 54개와 10개의 모든 거친 그룹 (Coarse groups)에서 승리한 반면, SC+H는 28개 유형에서 국지적인 이점을 유지했습니다. 이러한 결과는 다양한 작업별 학습 데이터와 단순한 가중 교차 엔트로피 (Weighted cross-entropy) 목적 함수가 테스트된 아키텍처 및 커리큘럼 복잡성보다 광범위한 PII 탐지에 더 크게 기여한다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

아키텍처 복잡성을 넘어선 미세 조정 (Fine-Tuning): DeBERTa를 이용한 PIIBench에서의 광범위한 PII 탐지

요약

핵심 포인트

댓글