arXiv논문2026. 06. 24. 11:37

L3Cube-MahaPOS: 마라티어 품사 태깅 (POS Tagging) 데이터셋 및 BERT 모델

요약

마라티어 NLP 연구를 위한 새로운 품사 태깅(POS) 데이터셋인 L3Cube-MahaPOS를 소개합니다. 32,354개의 수동 주석 문장을 포함하며, MahaBERT-v2를 포함한 다양한 모델을 통해 벤치마킹 성능을 검증했습니다.

핵심 포인트

마라티어 특화 골드 표준 POS 태깅 데이터셋 공개
Universal Dependencies 체계를 따르는 16개 태그 적용
MahaBERT-v2 모델이 88.67%의 높은 정확도 달성
데이터셋, 가이드라인, 모델 체크포인트 모두 오픈 소스 제공

품사 태깅 (Part-of-Speech (POS) tagging)은 기계 번역 (machine translation), 정보 추출 (information extraction), 구문 분석 (syntactic parsing)을 뒷받침하는 기초적인 자연어 처리 (NLP) 작업입니다. 마라티어 (Marathi)는 8,300만 명 이상의 사람들이 사용하며 전 세계에서 가장 많이 사용되는 20개 언어 중 하나임에도 불구하고, 주석이 달린 코퍼스 (annotated corpora)와 표준화된 평가 벤치마크 (evaluation benchmarks) 측면에서는 여전히 자원이 매우 부족한 상태입니다. 마라티어는 풍부한 형태론 (morphology), 비교적 자유로운 어순 (word order), 대문자 표기 관습의 부재, 그리고 힌디어 (Hindi) 및 영어 (English)와의 광범위한 코드 믹싱 (code-mixing)으로 인해 계산 모델링 (computational modelling)에 있어 독특한 과제를 제시합니다. 본 연구에서는 뉴스 텍스트에서 추출한 32,354개의 수동 주석 문장으로 구성된 마라티어용 골드 표준 (gold-standard) 품사 태깅 데이터셋인 L3Cube-MahaPOS를 소개합니다. 주석 작업은 16개 태그의 Universal Dependencies 정렬 체계를 따라 마라티어에 능숙한 주석가 팀에 의해 전적으로 수동으로 수행되었습니다. 유니코드 정규화 (Unicode normalisation), 데바나가리 (Devanagari) 인식 토큰화 (tokenisation), 노이즈 필터링 (noise filtering)을 포함하는 구조화된 전처리 파이프라인을 통해 모든 분할 (splits)에 걸쳐 레이블 일관성을 보장합니다. 우리는 HMM, CRF, BiLSTM, BiLSTM+CharCNN, MuRIL, 그리고 마라티어 특화 트랜스포머 (transformer)인 MahaBERT-v2를 포함하는 6가지 모델 제품군에 대해 데이터셋을 벤치마킹합니다. 가장 우수한 시스템은 평가된 15개 태그 클래스에 대해 88.67%의 토큰 수준 정확도 (token-level accuracy)와 81.67%의 매크로-F1 (macro-F1) 점수를 달성했습니다. 우리는 마라티어 NLP 연구를 촉진하기 위해 데이터셋, 주석 가이드라인, 그리고 학습된 모델 체크포인트 (model checkpoints)를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

L3Cube-MahaPOS: 마라티어 품사 태깅 (POS Tagging) 데이터셋 및 BERT 모델

요약

핵심 포인트

댓글