arXiv논문2026. 06. 15. 07:50

대규모 언어 모델(LLM)의 일본어 사전 학습 코퍼스에서 민감 개인 정보 탐지

요약

본 연구는 대규모 언어 모델(LLMs) 사전 학습 코퍼스에 포함될 수 있는 민감 개인 정보(SCPI)를 일본어 텍스트에서 탐지하는 방법을 제시합니다. 특히 일본의 개인정보보호법(APPI) 기준 '특별한 주의가 필요한 개인정보'에 초점을 맞추었습니다. LLM 기반 주석을 활용하여 데이터셋을 구축하고, 이를 바탕으로 SCPI 분류 머신러닝 모델을 훈련하여 효과적인 탐지 성능을 입증했습니다.

핵심 포인트

일본어 텍스트 코퍼스에서 민감 개인 정보(SCPI) 탐지를 시도한 최초의 연구입니다.
개인정보보호법(APPI)에 따른 '특별한 주의가 필요한 개인정보'를 다룹니다.
LLM 기반 주석을 활용하여 데이터셋 구축 및 머신러닝 모델 훈련을 진행했습니다.

민감한 개인 정보는 대규모 언어 모델(LLMs)의 대규모 사전 학습 코퍼스에 포함될 수 있습니다. 따라서 이러한 정보를 탐지하고 필터링하는 것은 개인정보 보호 규정을 준수하고 의도치 않은 정보 유출을 방지하는 데 필수적입니다. 하지만 영어 및 다른 언어와 달리, 일본어에서의 민감 개인 정보에 대한 연구는 제한적이었습니다. 본 연구에서는 일본의 개인정보보호법(APPI)에 따른 '특별한 주의가 필요한 개인정보(SCPI)'로 정의된 민감 개인 정보에 초점을 맞춥니다. 저희는 LLM 기반 주석을 사용하여 SCPI 데이터셋을 구축하고, 텍스트에서 SCPI를 신속하게 탐지하기 위해 머신러닝 모델을 훈련했습니다. 그 결과, 저희의 SCPI 분류기는 SCPI와 관련된 정보를 효과적으로 식별할 수 있었습니다. 본 연구는 일본어 텍스트 코퍼스에서 SCPI 탐지를 탐구한 최초의 시도이며, 정확한 탐지의 어려움을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)의 일본어 사전 학습 코퍼스에서 민감 개인 정보 탐지

요약

핵심 포인트

댓글