arXiv논문2026. 06. 17. 12:19

ISO 언어 마크업 프레임워크 및 TEI Lex-0를 활용한 Al-Mawrid 아랍어-영어 사전의 분석 및 인코딩

요약

Al-Mawrid 아랍어-영어 사전을 디지털화하기 위해 ISO LMF와 TEI Lex-0를 결합한 인코딩 방법론을 제안합니다. 연구 결과 91%의 구조적 파싱 정확도와 높은 정보 추출 성능을 입증하며, 아랍어 NLP를 위한 재현 가능한 워크플로우를 제시합니다.

핵심 포인트

ISO LMF와 TEI Lex-0를 활용한 이중 표준 프레임워크 채택
구조적 파싱 정확도 91% 및 유의어 재현율 98% 달성
아랍어 특유의 형태-의미적 특징 모델링 시 TEI Lex-0의 한계 논의
Linguistic Linked Open Data(LLOD) 통합을 위한 확장 가능한 참조 시스템 구축

본 논문은 Al-Mawrid 아랍어-영어 사전을 기존의 인쇄 자원에서 표준화된 계산 어휘집(computational lexicon)으로 변환하기 위한 체계적인 디지털화 및 인코딩 방법론을 제시합니다. 아랍어 어휘 인프라의 중대한 공백을 해결하기 위해, 본 연구는 ISO 어휘 마크업 프레임워크 (LMF, Lexical Markup Framework)를 Text Encoding Initiative의 TEI Lex-0 가이드라인과 정렬하는 이중 표준 프레임워크를 채택합니다. 사전의 거시적 및 미시적 구조에 편집적 관점을 적용함으로써, 본 연구는 20세기 이중 언어 사전에서 전형적으로 나타나는 구조적 모호성과 구두점 불일치 문제를 해결합니다. 이 방법론은 사전의 어휘 지식 밀도에 대한 실증적 분석에 근거합니다. 전체 분량의 4.6%를 차지하는 대표 표본(철자 Ayn)을 활용하여, 본 연구는 인코딩 과정에 과학적 무게를 더하며 91%의 구조적 파싱(parsing) 정확도를 입증합니다. 정보 추출 규칙에 대한 정량적 평가 결과, 유의어(synonyms)에 대해 정밀도(precision) 85%, 재현율(recall) 98%를 기록하였으며, 기타 형태-의미적(morpho-semantic) 특징에 대해 88%의 정밀도를 보이는 등 높은 성능을 나타냈습니다. 기술적 설명을 넘어, 본 논문은 기존 아랍어 어휘 자원과의 비판적 비교를 제공하며, 암시적인 "개방형 집합(open set)" 의미 관계 및 흩어진 형태론적 단서와 같은 특정 아랍어 현상을 모델링할 때 TEI Lex-0가 갖는 한계점을 논의합니다. 나아가, 본 연구는 해당 자원의 시맨틱 웹(semantic web) 포함을 용이하게 하는 확장 가능한 접두사 기반 참조 시스템을 구축함으로써 언어 연결 오픈 데이터 (LLOD, Linguistic Linked Open Data) 통합의 가능성을 탐구합니다. 그 결과, 아랍어 NLP 및 디지털 인문학 (Digital Humanities) 커뮤니티 내에서 복잡한 기존 이중 언어 어휘집의 역디지털화 (retro-digitization)를 위한 재현 가능한 워크플로우를 제공하는, 상호 운용 가능하고 기계가 처리 가능한 자원을 도출하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ISO 언어 마크업 프레임워크 및 TEI Lex-0를 활용한 Al-Mawrid 아랍어-영어 사전의 분석 및 인코딩

요약

핵심 포인트

댓글