대규모 언어 모델(LLM)의 개인정보 보호를 위한 임상 배포용 선택적 토큰 수준 암호화 편집
요약
임상 환경에서 LLM 사용 시 발생하는 개인정보 유출 위험을 줄이기 위해, 민감한 토큰만을 선택적으로 암호화하는 HERALD 프레임워크를 제안합니다. 이 방식은 문맥을 보존하면서도 모델 변경 없이 클라이언트 측에서 작동하여 데이터 보안과 모델 성능 사이의 균형을 맞춥니다.
핵심 포인트
- 민감한 토큰만 암호화하여 계산 및 통신 오버헤드 최소화
- 의료 개체명 인식(NER)과 품사(POS) 기반의 정교한 토큰 선택
- 모델 불가지론적(model-agnostic) 설계로 기존 모델 활용 가능
- 평문 성능에 근접한 높은 유용성 및 보안성 입증
대규모 언어 모델(LLMs)이 임상 애플리케이션에 점점 더 많이 사용되고 있지만, 기존의 많은 파이프라인은 처리를 위해 원본 민감 건강 정보를 원격 서버로 전송해야 하며, 이는 개인정보 유출 위험을 높입니다. 이 위험을 완화하기 위한 자연스러운 접근 방식은 전송 전에 데이터를 암호화하는 것입니다. 그러나 전체 데이터셋을 암호화하는 것과 같은 단순한 솔루션은 과도한 계산(computational), 정렬(alignment) 및 통신 오버헤드를 발생시켜 대규모의 실질적인 배포를 불가능하게 만듭니다. 사용성을 유지하면서 개인정보를 보호하기 위해, 우리는 적응형 언어 분해를 통한 의료 암호화 및 편집(Healthcare Encryption & Redaction via Adaptive Linguistic Decomposition, HERALD)을 제시합니다. 이는 다운스트림 모델의 유용성을 위한 주변 문맥을 보존하면서 민감한 토큰(tokens)만을 암호화함으로써 이러한 균형을 달성하도록 설계된 토큰 수준의 암호화 편집 프레임워크입니다. HERALD는 의료 개체명 인식(NER)을 품사(POS) 기반 정책과 결합하여 후보 토큰을 선택하고, 표층 형태(surface forms)를 안정화하기 위해 표적 표제어 추출(lemmatization)을 수행하며, 각 보호된 토큰을 명시적인 구분자(delimiters)로 감싸진 결정론적 암호문(deterministic ciphertext)으로 대체합니다. 특히, HERALD는 모델 불가지론적(model-agnostic)이며 완전히 클라이언트 측에서 작동하여, 다운스트림 모델의 변경 없이도 저장, 전송 및 처리 과정 전반에 걸쳐 민감한 콘텐츠가 암호화된 상태로 유지되도록 보장합니다. 우리는 공개 데이터셋의 분류 및 의료 질의응답(MQA) 작업 모두에서 HERALD를 평가했습니다. 다양한 작업에 걸쳐 실험 결과, 완전히 보안이 적용된 베이스라인(baselines)은 상당한 유용성 손실을 겪는 반면, HERALD는 평문(plaintext)에 근접한 성능을 일관되게 회복함을 보여줍니다. 전반적으로 HERALD는 새로운 활용 파이프라인을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기