네덜란드 의료 도메인을 위한 언어 코퍼스
요약
네덜란드어 의료 분야에 필요한 대규모 언어 데이터셋이 구축되었습니다. 연구진은 영어 데이터를 번역하고 일반 텍스트에서 의료 관련 내용을 식별하며 공개 리소스를 통합하는 방식으로 이 코퍼스를 만들었습니다. 결과적으로 약 1억 개의 문서, 350억 토큰 규모의 네덜란드 의료 도메인 언어 코퍼스가 생성되어 Hugging Face를 통해 무료로 제공됩니다.
핵심 포인트
- 네덜란드 NLP 개발을 제한하던 부족한 의료 코퍼스 문제를 해결했습니다.
- 영어 데이터 번역, 텍스트 식별 및 공개 리소스 추출 등 다각적인 방법론을 사용했습니다.
- 최종적으로 약 350억 토큰 규모의 대규모 네덜란드 의료 도메인 언어 코퍼스를 확보했습니다.
- 이 코퍼스는 사전 학습 모델 구축과 다양한 하류 NLP 작업에 활용될 수 있습니다.
배경: 네덜란드 의료 코퍼스는 부족하여 NLP 개발을 제한합니다. \ 방법: 우리는 영어 데이터셋을 번역하고 일반 코퍼스 내의 의료 텍스트를 식별하며 공개 네덜란드 의료 리소스를 추출했습니다. \ 결과: 생성된 코퍼스는 약 1 억 개의 문서에 걸쳐 의료 도메인을 아우르는 약 350 억 토큰으로 구성되며, Hugging Face 에서 무료로 제공됩니다. \ 결론: 이 작업은 사전 학습 및 하류 NLP 작업을 위한 최초의 대규모 네덜란드 의료 언어 코퍼스를 확립합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기