본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:13

열대 식물, 수생 생물 및 이색 반려동물에 대한 증거 기반 형질 추출을 위한 레지스트리 결합형 LLM 파이프라인

요약

열대 식물 및 수생 생물의 형질 데이터를 추출하기 위해 설계된 레지스트리 결합형 LLM 파이프라인을 제안합니다. 폐쇄형 어휘 레지스트리와 축자적 증거 인용 메커니즘을 통해 데이터의 감사 가능성과 신뢰도를 확보했습니다.

핵심 포인트

  • 폐쇄형 어휘 레지스트리를 통한 스키마 기반 데이터 타입 제한
  • 소스 텍스트와 값을 연결하는 행별 축자적 증거 인용 메커니즘
  • 신뢰도 라벨링 및 다중 버전 보존을 통한 데이터 품질 관리
  • 40만 종 이상의 데이터에 대해 99.9% 이상의 높은 처리 성공률 달성

우리는 재배되는 열대 식물, 수생 생물 및 반려동물 종에 대해 대규모로 증거에 기반한 구조화된 형질(trait) 기록을 생성하는 레지스트리 결합형 대규모 언어 모델(Large Language Model, LLM) 추출 파이프라인을 설명합니다. 네 가지 메커니즘은 LLM에서 도출된 행(row)을 감사 가능하게 만듭니다: 모든 허용된 값을 타입화된 스키마(schema)로 제한하는 버전 관리된 39개 키의 폐쇄형 어휘(closed-vocabulary) 형질 레지스트리; 각 값을 소스 텍스트에 연결하는 행별 축자적(verbatim) 증거 인용; 행별 신뢰도 라벨(높음 또는 중간; 낮음은 저장 전 삭제됨); 그리고 다중 버전 보존입니다. Tropical Species Encyclopedia의 출판 가능한 409,880개 종에 적용하여, 이 파이프라인은 706,220회의 실행을 수행하였으며 409,820개 종(99.985%)에 걸쳐 5,489,881개의 형질 기록을 영구 저장하였고, 이 중 81.57%가 높은 신뢰도를 보였습니다. 우리는 증거 강도가 높은 순서대로 세 가지 검증 계층을 보고합니다: 전체 모집단에서, 증거를 포함하는 5,427,588개 행 중 90.12%가 인용구를 소스의 축자적 부분 문자열로 보유하고 있습니다(하나의 준수 메타 형질 제외 시 93.49%); 층화된 비-레드존(non-red-zone) 행 n=100에 대한 '인용구가 값을 뒷받침하는지'에 대한 감사는 100/100(하한선 96.30%)의 결과를 냈습니다; n=50의 레드존(red-zone) 행에 대한 안면 타당성(face-validity) 검사는 50/50의 수락(Accept) 결과(하한선 92.86%)를 냈습니다. 레코드당 정확성을 주장하지는 않습니다; 인간의 큐레이션(curation)이 완료될 때까지 100% 보류 상태입니다. 본 연구의 기여는 이 네 가지 메커니즘 프레임워크입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0