arXiv논문2026. 06. 23. 12:36

신호는 어디에 존재하는가? 의료 인코더 사전 학습을 위한 웹 데이터 레시피

요약

의료 도메인 인코더의 성능 향상을 위해 웹 데이터 큐레이션 레시피를 제안합니다. 의료 용어 밀도 필터링과 LLM을 활용한 신호 증폭 재구문 기법을 통해 프랑스어 의료 NLP 성능을 극대화했습니다.

핵심 포인트

의료 용어 밀도 필터링을 통한 고품질 문서 선택
LLM 기반 신호 증폭 재구문으로 엔티티 컨텍스트 확장
프랑스어 의료 인코더 DoctoBERT 및 FineMed 코퍼스 구축
기존 교육 품질 필터 대비 우수한 성능 입증

웹 데이터 큐레이션 (Web data curation)은 디코더 대규모 언어 모델 (Decoder LLM) 사전 학습을 위해 널리 연구되어 왔습니다. 반면, 의료와 같이 전문 용어가 밀집된 도메인을 위한 인코더 (Encoders)는 확장성과 문체 다양성을 제한하는 소규모의 수동 큐레이션 코퍼스 (Corpora)로 사전 학습되며, 이는 비영어권 임상 환경에서 더욱 심각한 병목 현상이 됩니다. 웹 규모의 데이터 큐레이션이 전문 용어가 밀집된 도메인의 인코더 마스크드 언어 모델링 (Masked Language Modeling, MLM)에도 이득을 주는지 여부는 여전히 미해결 과제로 남아 있습니다. 이를 해결하기 위해, 우리는 두 가지 상호 보완적인 레버 (Levers)를 도입합니다. 의료 용어 밀도 필터링 (Medical-term density filtering)은 의료 용어가 풍부한 문서를 선택합니다. 신호 증폭 재구문 (Signal-amplifying rephrasing)은 LLM을 사용하여 문서를 더 넓은 엔티티 컨텍스트 (Entity contexts)를 가진 더 밀도 높은 변형으로 다시 작성합니다. 우리는 프랑스어 의료 NLP에 이 레시피를 적용합니다. 의료 용어 밀도 필터는 하위 의료 작업 (Downstream medical tasks)에서 널리 사용되는 교육 품질 필터 (Educational quality filter)보다 우수한 성능을 보이며, 두 방식은 서로를 보완합니다. 신호 증폭 재구문만으로도 가공되지 않은 웹 데이터보다 개선된 성능을 보이며, 이를 필터링된 웹 데이터와 혼합했을 때 가장 큰 이득을 얻습니다. 이 레시피는 프랑스어 의료 사전 학습 코퍼스인 FineMed와, 공개 벤치마크인 DrBenchmark 및 자체 임상 개체명 인식 (Named Entity Recognition, NER) 작업 모두에서 평가된 최첨단 프랑스어 의료 인코더 제품군인 DoctoBERT를 산출합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신호는 어디에 존재하는가? 의료 인코더 사전 학습을 위한 웹 데이터 레시피

요약

핵심 포인트

댓글