본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 17:11

ATLAS: 스웨덴 백과사전의 문서 추적, 링크링 및 분석

요약

본 연구는 고전 백과사전을 디지털화하는 과정에서 놓치기 쉬운 구조적 정보를 복원하고 활용하기 위한 파이프라인을 개발했습니다. 이 파이프라인은 주어 추출, 항목 식별 및 분류, 판본 간 항목 매칭, 그리고 위키데이터 링크링 기능을 포함합니다. 스웨덴 백과사전의 여러 판본에 적용한 결과, 높은 성능(예: 주어 추출 F1 점수 97.8%)을 달성하며 자동화된 접근 방식이 역사적 지식 보존 및 분석에 효과적임을 입증했습니다.

핵심 포인트

  • 고전 백과사전 디지털화는 OCR을 넘어 구조적 정보 복원에 초점을 맞춰야 한다.
  • 제안된 파이프라인은 주어 추출, 항목 분류, 판본 간 매칭, 위키데이터 링크링 등 다단계 프로세스를 포함한다.
  • 스웨덴 백과사전을 대상으로 한 실험에서 높은 성능을 입증하며 자동화된 역사적 지식 분석의 가능성을 제시했다.
  • 연구 결과로 얻은 데이터셋 및 프로그램은 공개되어 연구 커뮤니티에 기여할 예정이다.

고전 백과사전을 디지털화하는 것은 역사적으로 구조화된 지식에 대한 접근성을 개선하기 위한 중요한 단계입니다. 그러나 종종 이 과정은 광학 문자 인식 (OCR) 을 넘어가지 않고, 모든 잠재적인 구조를 활용하지 못합니다. 또한 많은 백과사전이 지식이 진화해 온 것을 반영하는 여러 판본을 가지고 있습니다. 원문 텍스트의 부족하는 구조는 이러한 판본 간의 변화를 추적하기 어렵게 만듭니다. 본 연구에서는 텍스트 구조를 복원하기 위한 파이프라인을 구축했습니다. 이 파이프라인은 주어를 추출하고 항목을 식별하며, 엔티티를 분류하고, 판본 간 항목을 매칭하며, 항목을 위키데이터 (Wikidata) 항목과 링크합니다. 우리는 1876 년부터 1951 년까지 발간된 권위 있는 스웨덴 백과사전인 extit{Nordisk familjebok} 의 주요 4 개 판본에 이 파이프라인을 적용했습니다. 우리는 F1 점수가 97.8% 로 주어를 추출할 수 있었고, 주어 분류에 대해 F1 점수를 93.4% 얻었습니다. 소규모 평가에서는 판본 간 매칭에서 정밀도 (precision) 가 93%, 위키데이터 링크링에서 정밀도가 85%, 재귀율 (recall) 이 16.5% 로 달성했습니다. 이는 자동화된 접근 방식이 디지털화된 역사적 지식을 가능하게 함을 보여줍니다. 이는 일반 지식의 보존과 지식 전달에 대한 이해를 용이하게 해야 합니다. 데이터셋 및 프로그램은 온라인에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0