Morpheus: 터키어를 위한 형태소 인식 신경망 토크나이저 및 워드 임베더
요약
교착어인 터키어의 특성을 반영하여 형태소 경계를 인식하는 신경망 토크나이저 및 임베더인 Morpheus를 제안합니다. 이 모델은 손실 없는 토큰화와 효율적인 워드 임베딩 생성을 동시에 수행하며, 기존 서브워드 방식보다 높은 형태소 정렬 성능과 낮은 메모리 사용량을 보여줍니다.
핵심 포인트
- 교착어 특성에 최적화된 손실 없는 형태소 인식 토크나이저 개발
- 기존 서브워드 방식 대비 약 2배 높은 형태소 정렬 성능 달성
- GPU 메모리 사용량을 기존 64K 어휘집 모델 대비 약 19% 절감
- BGE-M3 및 BERTurk를 능가하는 어휘 검색 및 어근 검증 성능
- 미분 가능한 동적 계획법을 통한 효율적인 경계 확률 계산
터키어는 교착어(agglutinative)입니다. 즉, 의미가 형태소(morpheme)에 의해 전달되지만, 현대 언어 모델을 구동하는 서브워드 토크나이저(subword tokenizers)는 말뭉치 통계(corpus statistics)에 따라 단어를 분할하여 의미가 담긴 접미사(suffixes)를 파편화하며, WordPiece 및 규칙 기반 분석기(rule-based analyzers)의 경우 출력값을 원래의 텍스트로 다시 디코딩(decode)하는 데 실패합니다. 본 논문은 터키어를 위한 신경망 형태소 경계 모델인 \textbf{Morpheus}를 제시합니다. 이는 손실 없는(lossless) 형태소 인식 토크나이저(morphology-aware tokenizer)인 동시에 워드 임베딩(word-embedding) 생성기입니다. 미분 가능한 포아송-이항 동적 계획법(differentiable Poisson-binomial dynamic program)은 학습 과정에서 문자당 경계 확률을 소프트 형태소 멤버십(soft morpheme memberships)으로 변환하고, 추론(inference) 시에는 정확한 세그먼트(segments)로 변환하며, 문자열 정규화(string normalization)를 거치지 않으므로 $\mathrm{decode}(\mathrm{encode}(w)) = w$가 구조적으로 성립합니다. 모델이 신경망 기반이기 때문에, 토큰화(tokenization)를 수행하는 동일한 순전파(forward pass) 과정에서 구조화된 워드 임베딩(word embedding)도 함께 방출됩니다. 생성(generation)에 유효한 유일한 방식인 가역적 토크나이저(reversible tokenizers) 중에서, Morpheus는 가장 낮은 문자당 비트 수(bits-per-character, $1.425$)를 달성하였고, 서브워드 계열(subword family)보다 약 두 배 높은 황금 형태소 정렬(gold morphological alignment) 성능을 보였으며(MorphScore macro-F1 $0.61$ 대 $\sim0.32$), 64K 어휘집(vocabulary)을 가진 서브워드 토크나이저보다 GPU 메모리를 약 $19%$ 적게 사용합니다. 임베더(embedder)로서, 고정된(frozen) Morpheus 벡터는 어휘 검색(lexical retrieval, root-family MAP $0.85$) 및 동일 어근 검증(same-root verification, ROC-AUC $1.00$)에서 다국어 리트리버(multilingual retriever)인 BGE-M3와 BERTurk를 능가합니다. 문맥 및 굴절 의존적 작업(context- and inflection-dependent tasks; NER, 격/수 프로빙(case/number probing))에서는 더 무거운 문맥 인코더(contextual encoders)가 여전히 앞서 있는데, 이는 Morpheus의 어근 중심 기하학(root-centric geometry) 때문인 것으로 분석됩니다. 코드: https://github.com/lonewolf-rd/TurkishMorpheus; 모델: https://huggingface.co/lonewolflab/Morpheus-TR-50K; 대화형 데모: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기