MUDIDI: 언어 모델을 활용한 다국어 사전 디지털화(Digitization)를 위한 2단계 프레임워크
요약
MUDIDI는 스캔된 다국어 사전을 기계 판독 가능한 형식으로 변환하기 위한 2단계 프레임워크입니다. 문자 인식 및 마크업 보존, 사전 항목 분할 및 스키마 매핑 과정을 통해 저자원 언어의 디지털화를 지원합니다.
핵심 포인트
- MUDIDI 2단계 프레임워크 제안
- LLM이 OCR 및 VLM 대비 우수한 성능 입증
- 30개 퍼블릭 도메인 사전 기반 데이터셋 공개
- 사전 서문 등 추가 정보 활용 시 품질 향상
다국어 사전은 저자원(low-resource) 및 소멸 위기 언어에 있어 가장 가치 있는 기록 자원 중 하나이지만, 여전히 많은 사전이 스캔본 형태로만 존재합니다. 수십 년 동안 언어별 고유 문자(scripts), 약어와 상호 참조(cross-references)가 포함된 복잡한 다단 레이아웃(multi-column layouts) 등으로 인해 이를 디지털화하여 기계 판독 가능한 형식으로 변환하는 것은 거의 불가능했습니다. 최근의 시각-언어 모델(Vision-Language Models, VLMs)이 유망한 해결책을 제시하고 있으나, 이들이 문자를 얼마나 잘 보존하고 마크업(markup)을 유지하며 사전적 구조(lexicographic structure)를 얼마나 잘 처리하는지는 불분명합니다. 우리는 다국어 사전 디지털화를 위한 2단계 프레임워크인 MUDIDI를 소개합니다. 1단계(Stage One)는 문자 인식(character recognition) 및 마크업 보존의 품질을 평가하며, 2단계(Stage Two)는 사전 항목 분할(dictionary entry segmentation)과 그에 따른 기계 판독 가능한 사전 스키마인 SIL의 Multi-Dictionary Formatter로의 매핑에 집중합니다. 또한 우리는 다양한 문자 체계, 어족(language families), 형식을 특징으로 하는 30개의 퍼블릭 도메인(public-domain) 사전에서 수집하여 사람이 주석을 단(human-annotated) 사전 항목들로 구성된 데이터셋을 공개합니다. 우리는 이 데이터셋을 바탕으로 OCR 시스템, 범용 대규모 언어 모델(Large Language Models, LLMs), 그리고 시각-언어 모델(Vision Language Models, VLMs)을 벤치마킹하였으며, 두 단계 모두에서 대부분의 문자 체계와 언어에 대해 LLM이 우수한 성능을 보임을 입증하고, 더 까다로운 시나리오에서 결과를 개선하기 위한 실질적인 가이드라인을 제공합니다. 마지막으로, 사전 서문과 같은 추가 정보를 LLM에 보충하는 것이 디지털화된 사전의 품질을 향상시킬 수 있음을 보여줍니다. Github: https://github.com/DavidSamuell/MUDIDI-Pipeline-for-Digitization-of-Multilingual-Dictionary/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기