arXiv논문2026. 06. 26. 11:10

대규모 언어 모델(LLM)을 이용한 종단적 합성 임상 기록 생성 파이프라인

요약

개인정보 보호 문제를 해결하기 위해 LLM을 활용하여 종단적 합성 임상 기록을 생성하는 모듈형 파이프라인을 제안합니다. 구조화된 데이터 생성부터 비구조화된 기록 생성까지 결합하여 임상적 일관성과 다양성을 확보한 데이터셋을 공개합니다.

핵심 포인트

LLM 기반의 모듈형 파이프라인을 통한 합성 임상 데이터 생성
환자 여정 시뮬레이션을 통한 종단적 기록의 내부 일관성 유지
개인정보 보호 위험 없이 임상 AI 도구 개발 및 평가 가능
70명의 합성 환자 및 다단계 검증 데이터셋 공개

합성 데이터(Synthetic data)는 실제 데이터에 대한 접근이 제한된 영역에서 AI 시스템의 개발 및 평가를 가능하게 하기 위해 점점 더 많이 사용되고 있습니다. 의료 분야에서는 임상 문서(clinical documentation)가 그 민감성으로 인해 특별한 어려움을 안겨줍니다. 본 연구는 실제 환자 데이터와 관련된 개인정보 보호 위험을 피하면서 임상 AI 도구의 개발을 지원하도록 설계된 합성 임상 기록(synthetic clinical notes) 파이프라인 및 데이터셋을 소개합니다. 이 데이터셋은 구조화된 환자 생성(structured patient generation), 반구조화된 환자 여정 시뮬레이션(semi-structured patient journey simulation), 그리고 대규모 언어 모델(Large Language Models, LLM)을 이용한 비구조화된 임상 기록 생성(unstructured clinical note generation)을 결합한 모듈형 파이프라인을 사용하여 생성됩니다. 이 파이프라인은 종단적 환자 기록(longitudinal patient records) 전반에 걸친 내부 일관성(internal consistency)을 우선시하도록 설계되었으며, 동시에 작성 스타일, 기록 구조 및 임상적 세부 사항의 변동성을 포착합니다. 생성된 기록의 충실도(faithfulness), 현실성(realism), 다양성(diversity)을 향상시키기 위해 LLM 기반 검증 및 증강(augmentation) 단계를 포함한 추가적인 메커니즘이 사용됩니다. 우리는 전체 병원 여정에 걸쳐 각각 20~50개의 임상 기록과 연결된 70명의 합성 환자 데이터셋을 공개합니다. 이 데이터셋은 여러 수준의 검증(validation) 단계로 제공되어, 사용자가 사용 사례에 따라 현실성과 확장성(scalability) 사이의 균형을 맞출 수 있도록 합니다. 이 데이터셋은 실제 환자 데이터에 의존하지 않고 요약 도구(summarisation tools), 코딩 모델(coding models), 의사결정 지원 시스템(decision support systems)을 포함한 임상 AI 시스템의 개발, 테스트 및 평가를 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)을 이용한 종단적 합성 임상 기록 생성 파이프라인

요약

핵심 포인트

댓글