CT-DEB26에서의 CaresAI: 도메인 특화 Transformer 임베딩 및 분류 모델을 사용한 임상 시험 내 투여 오류 탐지
요약
임상 시험 내 투여 오류를 탐지하기 위해 BioBERT 등 도메인 특화 Transformer 모델을 활용한 연구입니다. 텍스트 임베딩과 범주형 특징을 결합하여 오류 예측 성능을 평가하였으며, 도메인 정렬의 중요성을 입증했습니다.
핵심 포인트
- BioBERT가 ClinicalBERT 대비 우수한 투여 오류 탐지 성능을 보임
- 도메인 특화 임베딩이 단순 모델 결합보다 성능 향상에 효과적임
- Gradient Boosting 및 ResNet 기반 모델이 높은 ROC-AUC 달성
- 임상 시험 안전 모니터링 및 규제 의사결정 지원 가능성 제시
투약 오류, 특히 임상 시험(CT)에서의 투여 오류(dosing errors)는 환자 해를 끼치고, 약물 이상 반응 및 더 나쁜 환자 결과를 초래할 수 있습니다. 투여 오류는 예방 가능하며, 조기 식별은 시험의 무결성을 개선하고 이후의 임상적 및 재정적 부담을 완화할 수 있습니다. 본 연구는 생물 의학 코퍼스(biomedical corpora)로 학습된 Transformer 기반 언어 모델을 사용하여 임상 시험 정보의 텍스트 표현을 평가함으로써, CT 프로토콜 내의 투여 오류를 탐지하는 것을 목표로 합니다. CT 텍스트 데이터는 ClinicalBERT, PubMedBERT, BioBERT, MedCPT를 포함한 여러 모델을 사용하여 인코딩되었으며 범주형 특징(categorical features)과 통합되었습니다. 이러한 텍스트 임베딩은 실험 프레임워크 내에서 전통적인 머신러닝(machine learning) 모델 및 신경망(neural network) 구조의 입력값으로 사용되었습니다. 성능은 주로 투여 오류 예측에 대한 ROC-AUC를 사용하여 평가되었습니다. 로지스틱 회귀(logistic regression) 베이스라인 하에서, BioBERT는 ClinicalBERT 베이스라인보다 3.95% 향상된 0.794의 ROC-AUC를 달성하며 다른 인코더들을 지속적으로 능가했습니다. 여러 임베딩을 결합하는 것은 개선을 가져오지 않았으며, 이는 도메인 정렬(domain alignment)이 표현 스태킹(representational stacking)보다 더 중요하다는 것을 나타냅니다. 그래디언트 부스팅(Gradient boosting) 모델, 서포트 벡터 분류기(support vector classifiers), 로지스틱 회귀, 잔차 신경망(residual neural networks)은 투여 오류 예측에서 가장 강력한 성능을 보였으며, 0.821에서 0.853 사이의 ROC-AUC를 달성했습니다. 전반적으로, 도메인 특화 Transformer 임베딩과 구조화된 메타데이터의 통합은 사전에 정의된 높은 투여 오류 위험 기준을 충족하는 시험을 식별할 수 있게 하여, 안전 모니터링을 발전시키고 정보에 입각한 규제 의사결정을 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기