중국어 일반 명칭 및 CITES 출처 링크를 포함한 교차 도메인 열대 종 데이터셋
요약
열대 식물, 수생 생물, 반려동물 등 41만여 종을 아우르는 교차 도메인 데이터셋을 소개합니다. GBIF와 NCBI 등 다양한 생물 다양성 인프라를 결합하였으며, 중국어 일반 명칭과 CITES 출처 정보를 포함한 독창적인 레이어를 제공합니다.
핵심 포인트
- 410,499개의 활성 열대 종을 포함하는 대규모 데이터셋
- 중국어 일반 명칭 커버리지 99.50% 달성
- CITES 출처 연결 및 교차 도메인 온톨로지 구축
- Zenodo를 통한 데이터셋 공개 및 CC-BY 4.0 라이선스 지원
우리는 세 가지 응용 하위 도메인인 tropical_plants (열대 식물), tropical_aquatic (열대 수생 생물), tropical_pets (열대 반려동물)에 걸쳐 있는 410,499개의 활성 열대 종에 대한 버전 관리형 교차 도메인 데이터셋(작업 스냅샷 2026-04-20)을 설명합니다. 이 도메인들은 상업적 및 규제적 생애 주기를 공유하지만, 계(kingdom) 단위로 조직된 생물 다양성 인프라 전반에 걸쳐 분산되어 있습니다. 이 리소스는 GBIF, Plants of the World Online, iNaturalist, NCBI Taxonomy, Catalogue of Life, Encyclopedia of Life의 분류학적 식별자(taxonomic identifiers)를 결합하며, 세 가지 독창적인 레이어를 추가합니다: 무역 및 사육 맥락에 따라 분류군(taxa)을 재분할하는 교차 도메인 온톨로지 (ontology); 검증되지 않은 기계 생성 제안을 제외하는 유형론(typology) 하에 명확한 명칭별 출처를 명시한 중국어 일반 명칭 (Chinese vernacular) 레이어; 그리고 각 분류군을 Species+ 항목에 연결하는 CITES 출처 연결 레이어입니다. 중국어 일반 명칭 커버리지(과학적 이명(binomial)과 구별되는 CJK 중국어 명칭을 가진 분류군의 비율)는 99.50% (410,499개 중 408,456개; 전체 인구수 기준)에 달합니다. 커버리지는 완전성을 특징으로 하며 명칭 번역의 정확성을 의미하지는 않습니다. 후자(정확성)는 4단계 출처 유형론에 의해 제한되며, 본 보고서에 기술된 예비 내부 검토의 대상입니다. 블라인드 외부 감사(blind external audit)가 주요 미결 항목으로 식별되었습니다. 상류 콘텐츠(Upstream content)는 독창적 기여 레이어에 대해서만 안정적인 식별자(stable identifier)로 참조되어 CC-BY 4.0 재사용을 지원합니다. 데이터셋은 Zenodo (10.5281/zenodo.20377811)에 저장되었습니다. 본 프리프린트(preprint)는 데이터셋의 현재 상태에 대한 정식 v1.0 설명입니다. 향후 데이터 기술서(Data Descriptor) 제출이 예상되나, 이는 '한계점(Limitations)'에 나열된 검증 및 릴리스 엔지니어링 항목에 따라 결정됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기