arXiv논문2026. 06. 23. 12:09

음소의 구원: 국제 음성 기호(IPA)에 기반한 다국어 토큰화

요약

다국어 언어 모델의 토큰화 성능 격차를 해결하기 위해 국제 음성 기호(IPA)를 활용한 언어 중립적 입력 표현 방식을 제안합니다. 실험 결과, IPA 기반 토큰화는 비라틴 스크립트에서 품질을 향상시키고 미학습 언어에 대한 일반화 성능이 뛰어남을 입증했습니다.

핵심 포인트

기존 서브워드 토큰화의 언어 간 성능 격차 문제 지적
IPA를 활용한 언어 중립적 입력 표현 방식 제안
비라틴 스크립트에서 토큰화 품질의 일관된 향상 확인
미학습 언어 및 스크립트에 대한 효과적인 일반화 성능 입증

다국어 언어 모델(Multilingual language models)은 토큰화(tokenization) 단계에서부터 발생할 수 있는 언어 간 성능 격차를 자주 보입니다. 널리 사용되는 서브워드 토큰화(subword tokenization) 방식은 자원이 풍부한 언어(high-resource languages)에 유리하며, 토큰화가 없는(tokenizer-free) 방식은 문자당 바이트 비율(bytes-per-character ratio)이 높은 스크립트(scripts)에서 여전히 더 긴 시퀀스(sequences)를 생성합니다. 이러한 단점을 해결하기 위해, 우리는 다국어 토큰화 도구를 위한 언어 중립적(language-agnostic) 입력 표현으로서 국제 음성 기호(International Phonetic Alphabet, IPA)를 사용할 것을 제안합니다. IPA는 조밀한 기호 목록(symbol inventory), 더 큰 교차 언어적 문자 중첩(cross-lingual character overlap), 그리고 언어 전반에 걸쳐 더 균형 잡힌 문자당 바이트 분포를 제공합니다. 우리는 24개 언어와 14개 스크립트에 대해 텍스트 대 IPA 서브워드 토큰화 쌍을 학습시켰으며, IPA 토큰화 도구가 특히 비라틴 스크립트(non-Latin scripts)에서 토큰화 품질을 일관되게 향상시키고, 보지 못한 언어와 스크립트에 더 효과적으로 일반화(generalize)된다는 것을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

음소의 구원: 국제 음성 기호(IPA)에 기반한 다국어 토큰화

요약

핵심 포인트

댓글