arXiv논문2026. 06. 23. 12:15

ROMEVA: Roman Urdu 언어 모델을 위한 기하학적 구조 보존 어휘 확장

요약

Roman Urdu와 같이 철자 변이가 심한 저자원 언어의 서브워드 파편화 문제를 해결하기 위한 ROMEVA 기법을 제안합니다. PCA 가이드 앵커 손실을 통해 임베딩 공간을 보존하며 어휘를 확장하는 연구입니다.

핵심 포인트

Roman Urdu의 철자 변이로 인한 서브워드 파편화 문제 해결
ROMEVA: 서브워드 평균 초기화와 PCA 가이드 앵커 손실 결합
임베딩 공간 보존 측면에서 ROMEVA가 가장 효과적임
단순 미세 조정이 다운스트림 감성 분류 성능은 더 높게 나타남

mBERT와 같은 다국어 언어 모델 (Multilingual Language Models)은 저자원 자연어 처리 (low-resource NLP) 분야에서 널리 사용되지만, Roman Urdu와 같이 형태론적으로 일관되지 않은 언어에 대한 적응 연구는 여전히 미흡한 상태입니다. Roman Urdu의 철자 변이 (spelling variation)는 심각한 서브워드 파편화 (sub-word fragmentation)를 유발하며, 토큰당 평균 1.50개의 서브워드가 생성됩니다. 본 논문에서는 어휘 확장 (vocabulary expansion) 과정에서 임베딩 (embeddings)을 안정화하기 위해 서브워드 평균 초기화 (sub-word-average initialization)와 PCA 가이드 앵커 손실 (PCA-guided anchor loss)을 결합한 \textit{ROMEVA} (Roman Urdu Embedding-preserving Vocabulary Adaptation)를 제안합니다. 36,130개의 코멘트로 구성된 Roman Urdu 코퍼스 (corpus)를 사용하여, mBERT에 파편화가 심한 500개의 토큰을 추가하고 단순 미세 조정 (naive fine-tuning), 서브워드 인지 미세 조정 (sub-word-aware fine-tuning), 그리고 \textit{ROMEVA}를 비교하였습니다. \textit{ROMEVA}가 사전 학습된 임베딩 공간 (pretrained embedding space)을 가장 효과적으로 보존하는 반면, 단순 미세 조정은 가장 강력한 다운스트림 감성 분류 (downstream sentiment classification) 성능을 달성했습니다. 이러한 결과는 임베딩 안정성과 다운스트림 성능 사이의 괴리를 보여주며, 형태론적으로 일관되지 않은 언어에서는 엄격한 임베딩 보존보다 더 강력한 적응 (adaptation)이 더 선호될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ROMEVA: Roman Urdu 언어 모델을 위한 기하학적 구조 보존 어휘 확장

요약

핵심 포인트

댓글