Reddit요약2026. 06. 15. 09:19

Meddies PII: 임상 텍스트를 위한 오픈 멀티링구얼 비식별화 모델

요약

Meddies PII는 임상 텍스트에서 환자 식별 정보를 보호하면서도 임상적 유효성을 유지하는 오픈 멀티링구얼 비식별화 모델 및 데이터셋입니다. 합성 데이터를 활용해 다양한 언어와 무질서한 문서 형식에서도 안정적인 추출 성능을 목표로 합니다.

핵심 포인트

환자 개인정보 보호와 임상 데이터 보존의 균형 추구
다국어 및 다양한 문서 형식(JSON, XML, 채팅 등) 지원
동적 프롬프팅을 활용한 고품질 합성 데이터셋 구축
임상 AI 배포를 위한 연구용 오픈 모델 및 벤치마크 제공

임상 AI 모델이 임상적인 추론을 수행하기 위해 환자가 누구인지 알 필요는 없습니다. 모델에게 필요한 것은 증상, 약물, 검사 결과, 진단 이력, 그리고 치료 과정입니다. 문제는 실제 의료 기록에서 이러한 사실들이 대개 식별자(identifiers)인 이름, 기록 ID, 보험 번호, 주소, 전화번호, 입원 날짜, 부서명 등과 나란히 위치한다는 점입니다. 따라서 임상 비식별화(clinical de-identification)는 이중적인 계약을 가집니다: 1. 환자 식별자가 유출되지 않도록 할 것. 2. 여전히 사용되어야 하는 임상적 사실들을 파괴하지 않을 것. 두 번째 부분은 과소평가하기 쉽습니다. 만약 모델이 생년월일을 놓친다면 개인정보 보호 경계가 무너집니다. 반대로 "creatinine 86 µmol/L" 또는 "metformin 500 mg"를 삭제한다면, 후속 임상 기록은 의미를 잃게 됩니다. 두 경우 모두 실패이지만, 그 결과는 다릅니다. 우리는 이 문제를 해결하기 위해 Meddies PII를 구축했습니다. 이것은 다국어 임상 비식별화(multilingual clinical de-identification)를 위한 오픈 연구 모델이자 데이터셋입니다. 이 데이터셋은 합성(synthetic) 데이터이며, 생성 과정에서 동적 프롬프팅(dynamic prompting), 다양한 언어, 문서 유형, 문서 라벨, 노트 길이, 텍스트 형식, 에지 케이스(edge case), 그리고 식별자 계열(identifier family)을 적용하여 구축되었습니다. 목표는 하나의 예쁜 템플릿을 만드는 것이 아닙니다. 목표는 급하게 작성된 노트, 간호 양식, JSON/XML 내보내기, 다국어 텍스트, 행정 기록, 그리고 채팅 스타일의 프롬프트 등 병원 데이터가 실제로 나타나는 무질서한 표면 전반에서 안정적인 추출 동작을 보이는 것입니다. Meddies PII는 완전한 비식별화 제품은 아닙니다. 병원에는 여전히 정책, 감사 로그(audit logs), 로컬 검증, 인간의 에스컬레이션 경로(human escalation paths), 그리고 배포 제어 기능이 필요합니다. 하지만 우리는 이것이 유용한 시작점이라고 생각합니다. 검사할 수 있을 만큼 충분히 개방되어 있고, 솔직하게 논의할 수 있을 만큼 신중하며, 임상 AI가 배포되기 위해서는 벤치마크 성능 이상의 것이 필요하다는 현실로부터 구축되었기 때문입니다.

전체 게시물(Full post): https://meddies.ai/research/meddies-pii 데모(Demo): https://huggingface.co/spaces/Meddies/meddies-pii 모델(Model): https://huggingface.co/Meddies/meddies-pii 데이터셋(Dataset): https://huggingface.co/datasets/Meddies/meddies-pii /u/TheREXincoming이 r/LocalLLaMA에 제출함 [링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기