ATLAS: 스웨덴 백과사전의 문서 추적, 링크링 및 분석

고전 백과사전을 디지털화하는 것은 역사적으로 구조화된 지식에 대한 접근성을 개선하기 위한 중요한 단계입니다. 그러나 종종 이 과정은 광학 문자 인식 (OCR) 을 넘어가지 않고, 모든 잠재적인 구조를 활용하지 못합니다. 또한 많은 백과사전이 지식이 진화해 온 것을 반영하는 여러 판본을 가지고 있습니다. 원문 텍스트의 부족하는 구조는 이러한 판본 간의 변화를 추적하기 어렵게 만듭니다. 본 연구에서는 텍스트 구조를 복원하기 위한 파이프라인을 구축했습니다. 이 파이프라인은 주어를 추출하고 항목을 식별하며, 엔티티를 분류하고, 판본 간 항목을 매칭하며, 항목을 위키데이터 (Wikidata) 항목과 링크합니다. 우리는 1876 년부터 1951 년까지 발간된 권위 있는 스웨덴 백과사전인 extit{Nordisk familjebok} 의 주요 4 개 판본에 이 파이프라인을 적용했습니다. 우리는 F1 점수가 97.8% 로 주어를 추출할 수 있었고, 주어 분류에 대해 F1 점수를 93.4% 얻었습니다. 소규모 평가에서는 판본 간 매칭에서 정밀도 (precision) 가 93%, 위키데이터 링크링에서 정밀도가 85%, 재귀율 (recall) 이 16.5% 로 달성했습니다. 이는 자동화된 접근 방식이 디지털화된 역사적 지식을 가능하게 함을 보여줍니다. 이는 일반 지식의 보존과 지식 전달에 대한 이해를 용이하게 해야 합니다. 데이터셋 및 프로그램은 온라인에서 이용 가능합니다.

Insights

ATLAS: 스웨덴 백과사전의 문서 추적, 링크링 및 분석

요약

핵심 포인트

댓글

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

Western Alliance Bancorporation 2분기 실적 발표 주요 내용

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

Western Alliance Bancorporation 2분기 실적 발표 주요 내용