arXiv논문2026. 06. 30. 13:10

UKRI 연구 지원 제안서에서의 연구 엔티티 추출 및 주제 탐지

요약

UKRI 연구 지원 제안서에서 연구 엔티티를 추출하고 주제를 탐지하기 위해 GPT-4o, Mistral, DSIT-Taxonomies의 성능을 비교한 연구입니다. Mistral 기반 방식이 기존 방식보다 높은 주제 분류 정확도와 운영 효율성을 보임을 입증했습니다.

핵심 포인트

GPT-4o와 Mistral이 기존 DSIT-Taxonomies 방식보다 우수한 엔티티 추출 성능을 보임
Mistral 기반 접근 방식은 90.5%의 높은 주제 분류 정확도를 달성
Mistral은 대규모 연구 데이터 분석에 있어 고성능, 효율성, 보안성을 제공함
신흥 연구 분야 식별을 위한 LLM 기반 파이프라인의 유효성 확인

본 논문은 연구 지원 제안서(funding proposals)에서 연구 엔티티(research entities)를 추출하고 분류하기 위해 GPT-4o, Mistral, 그리고 맞춤형 알고리즘인 DSIT-Taxonomies라는 세 가지 LLM 기반 접근 방식을 비교한 UKRI 지원 메타과학(Metascience) 프로젝트의 예비 연구 결과를 제시합니다. 우리의 프로젝트인 "Tracking Stars and Unicorns"는 공공 투자의 근거가 될 수 있는 신흥 연구 분야의 초기 신호를 식별하는 것을 목표로 합니다. 우리의 방법론은 3단계 파이프라인을 채택하였으며, Mistral을 사용하여 1차 엔티티 추출을 수행하고 이를 OpenAlex Topics 분류 체계(taxonomy)에 매핑하였습니다. 우리는 다양한 분야의 42개 제안서 초록을 대상으로 우리의 접근 방식을 평가하였으며, Mistral과 GPT-4o가 상당한 의미적 중첩(semantic overlap)을 가진 유사한 고품질 엔티티 세트를 생성하며, 파편화된 DSIT-Taxonomies 방식보다 뛰어난 성능을 보임을 관찰했습니다. 결정적으로, Mistral 기반 접근 방식은 전체 DSIT-Taxonomies 파이프라인(71.4%)에 비해 우수한 주제 분류 정확도(90.5%)를 달성했습니다. 우리는 Mistral이 민감한 연구 지원 데이터의 대규모 분석을 위해 고성능, 운영 효율성 및 보안성을 갖춘 솔루션을 제공한다고 결론짓습니다.

AI 자동 생성 콘텐츠

원문 바로가기

UKRI 연구 지원 제안서에서의 연구 엔티티 추출 및 주제 탐지

요약

핵심 포인트

댓글