본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:33

TajikNLP: 타지크어 (키릴 문자) 의 포괄적 텍스트 처리를 위한 오픈소스 도구킷

요약

본 기사는 자원이 부족한 타지크어(키릴 문자) 텍스트 처리를 위해 개발된 오픈소스 NLP 도구킷 'TajikNLP'를 소개합니다. TajikNLP는 세정, 정규화, 토큰화, 형태소 분석, 품사 태깅 등 다양한 핵심 기능을 통합적이고 모듈식으로 제공하는 파이프라인을 구축했습니다. 특히 타지크어의 복잡한 문법 구조를 처리하기 위한 새로운 형태소 엔진과 사전 학습된 임베딩, 그리고 대규모 데이터셋까지 함께 제공하여 학술 및 산업 응용에 필요한 기술 인프라를 완성합니다.

핵심 포인트

  • 타지크어(키릴 문자) 텍스트 처리를 위한 포괄적이고 통합적인 오픈소스 NLP 파이프라인을 제공한다.
  • 세정, 정규화, 토큰화(BPE), 형태소 분할, 품사 태깅 등 핵심 기능을 모듈식 아키텍처로 구현했다.
  • 타지크어의 복잡한 문법적 변형 처리를 위해 심층 분석이 가능한 새로운 통합 형태소 엔진을 포함한다.
  • 품사 태깅 코퍼스, 감성 어휘, 지명 데이터셋 등 4개의 대규모 언어학 데이터셋과 높은 코드 커버리지를 제공하여 신뢰성을 확보했다.

키릴 문자로 쓰인 타지크어는 공개된 자연어 처리 (NLP) 도구킷 측면에서 자원이 극히 부족하여, 언어학적 연구와 실제 개발을 모두 저해하고 있습니다. 이 논문은 타지크어 텍스트의 원본 키릴 문자 표기를 보존하면서 처리하는 최초의 포괄적인 파이프라인을 제공하는 오픈소스 Python 라이브러리인 TajikNLP 를 소개합니다. 이 라이브러리는 세정 (cleaning), 정규화 (normalization), 토큰화 (including subword BPE), 형태소 분할, 품사 태깅, 줄임말 생성 (stemming), 원형어 생성 (lemmatization), 문장 분할을 위한 구성요소의 순차적 적용을 가능하게 하는 통합된 Doc object 를 중심으로 모듈러 아키텍처를 구현합니다. 타지크어의 접미사 명사와 동사 변형을 효과적으로 처리하기 위해, 새로운 통합 형태소 엔진이 제공되며 이는 제어 모드와 심층 분석 모드를 통해 분석의 깊이를 크게 향상시킵니다. 또한, 감성 분석기 (lexicon-based sentiment analyser) 와 Hugging Face Hub 에서 직접 로드되는 사전 학습된 Word2Vec/FastText 임베딩을 포함합니다. 재현성을 보장하고 향후 연구를 용이하게 하기 위해, 허용 조건 하의 라이선스로 공개된 4 개의 언어학 데이터셋 -- 품사 태깅 코퍼스 (52.5k entries), 감성 어휘 (sentiment lexicon) (3.5k entries), 지명 gazetteer (toponym gazetteer) (5.6k entries), 개인 이름 데이터셋 (personal names dataset) (3.8k entries) -- 이 함께 제공됩니다. 616 개의 자동화된 테스트를 통해 93% 의 소스 코드 커버리지를 달성함으로써 라이브러리의 신뢰성은 검증되었습니다. 따라서 TajikNLP 는 저자원의 키릴 문자 환경에서 학술 및 산업 응용을 위한 진입 장벽을 낮추는 기초적인 기술 인프라를 구축합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0