본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 12:23

파싱 표현 문법 (Parsing Expression Grammars)을 사용하여 아랍어-영어 기계 가독형 사전 구조화하기

요약

본 논문은 아랍어-영어 Al-Mawrid 사전을 기계 가독형 구조로 변환하는 방법을 제안합니다. 파싱 표현 문법(PEG)을 활용하여 단어와 문장 부호 스트림을 계층적 구조로 변환하는 단계별 캐스케이드 방식을 설계했습니다.

핵심 포인트

  • PEG를 활용한 아랍어 사전의 계층적 구조화 방법론 제시
  • 정의 구절, 도메인 레이블 등 사전 항목의 미세 구조 추출
  • 비표준화된 사전 데이터를 자동/반자동으로 구조화 가능함을 입증

사전은 자연어 처리 (NLP) 및 인간 언어 기술의 많은 응용 분야에 필요한 단어에 관한 풍부한 어휘 정보의 원천입니다. 그러나 출판사들은 기계 처리가 아닌 인간의 사용을 위해 인쇄된 사전을 제작합니다. 본 논문은 아랍어-영어 Al-Mawrid 사전을 기계 가독형 버전으로 부분적으로 구조화하는 방법을 제시합니다. 이 방법은 Al-Mawrid의 항목들을 단어와 문장 부호의 스트림에서 계층적 구조로 변환합니다. 이 계층적 구조는 각 사전 항목의 구성 요소를 명시적인 형식으로 표현합니다. 사전 항목은 하위 항목들로 구성되며, 각 하위 항목은 정의 구절 (defining phrases), 도메인 레이블 (domain labels), 상호 참조 (cross-references), 그리고 번역 등가물 (translation equivalences)로 이루어집니다. 우리는 제안된 방법을 파싱 (parsing)이 주요 단계인 단계별 캐스케이드 (cascaded steps) 방식으로 설계했습니다. 우리는 파싱 표현 문법 (Parsing Expression Grammars) 형식론을 사용하여 파서를 구현했습니다. 결론적으로, 아랍어 사전들은 미세 구조 (microstructure) 표준화가 되어 있지 않지만, 본 연구는 그들의 미세 구조를 유도한 후 타당한 정확도로 자동 또는 반자동으로 구조화하는 것이 가능하다는 것을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0