본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:46

WordNet을 통한 아랍어-영어 사전 의미의 자동 품사 태깅 (Automatic Part-of-Speech Tagging of

요약

WordNet을 활용하여 Al-Mawrid 아랍어-영어 사전의 의미에 자동으로 품사 태깅을 수행하는 알고리즘을 제안합니다. 이 방식은 자원이 부족한 언어를 위한 효율적인 NLP 도구 구축을 목표로 합니다.

핵심 포인트

  • WordNet을 통한 영어 품사 태그의 아랍어 사전 전이
  • 이중 언어 사전을 WordNet-LMF 형식으로 표준화하는 기반 마련
  • 대규모 데이터 없이도 높은 정확도를 보이는 자원 경량 접근 방식
  • 중의성 해소 프로세스 이후 번역 등가물을 활용한 태깅 수행

본 논문은 이중 언어 사전의 의미(senses)에 대한 품사 태깅 (Part-of-Speech (POS) tagging) 알고리즘을 제안합니다. 이 알고리즘은 Al-Mawrid 아랍어-영어 사전에 적용되었습니다. 태깅 작업은 중의성 해소 (dis-ambiguities) 프로세스 이후, 영어 번역 등가물 (translation equivalences (TEs))의 품사 태그를 사전 의미로 전이함으로써 수행됩니다. 의미의 영어 품사 태그는 Princeton WordNet으로부터 획득됩니다. 이중 언어 사전 의미의 품사 태깅은 이중 언어 사전을 WordNet에 연결하거나, 단어가 아닌 유의어 집합 (synset)이 기본 단위인 WordNet-LMF 형식으로 해당 사전을 표준화하는 데 필수적인 전제 조건입니다. 등록된 정확도는 높으면서도 비용은 적게 듭니다. 자연어 처리 (NLP) / 고등 언어 기술 (HLT) 도구를 구축하려면 언어 전문가, 대규모 투자, 그리고 오랜 시간이 필요합니다. 통계적 접근 방식 (statistical approach)의 경우 대규모 주석이 달린 코퍼스 (annotated corpora)가 필요하며, 규칙 기반 접근 방식 (rule-based approach)의 경우 풍부한 언어적 및 세계 지식을 포함하는 대규모 어휘집 (lexicon)이 필요합니다. 이는 자원이 부족한 언어 (poor-resource languages)를 위한 자연어 처리 (NLP) 도구를 개발하기 위해 이른바 자원 경량 접근 방식 (resource-light approaches)이 등장하게 된 동기가 됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0