arXiv논문2026. 06. 23. 12:49

음소-자소 변환(G2P)을 위한 대규모 언어 모델(LLM) 벤치마킹: 일본어 사례 연구

요약

일본어 음소-자소 변환(G2P) 성능 향상을 위해 30개 이상의 LLM을 벤치마킹한 연구입니다. 파싱 모드와 직접 모드 전략을 비교한 결과, 규칙 기반 후처리를 결합한 파싱 모드가 더 우수한 성능을 보였습니다.

핵심 포인트

30개 이상의 LLM을 대상으로 일본어 G2P 성능 벤치마킹 수행
규칙 기반 후처리를 포함한 '파싱 모드'가 '직접 모드'보다 성능 우위
모델 크기, 버전, 일본어 특화 학습이 G2P 성능의 핵심 요소
LLM 예측 가나를 활용한 TTS가 엔드 투 엔드 방식보다 나은 발음 생성

음소-자소 변환 (Grapheme-to-phoneme, G2P)은 제어 가능하고 견고한 텍text-to-speech (TTS)를 위해 필수적이며, 폭넓은 언어 지식을 갖춘 대규모 언어 모델 (Large Language Models, LLMs)은 유망한 접근 방식을 제공합니다. 우리는 3,000개의 수동 주석 문장을 사용하여 기존의 형태소 분석기 (Morphological analyzers)와 비교하며 30개 이상의 LLM을 일본어 G2P에 대해 벤치마킹했습니다. 우리는 두 가지 프롬프팅 (Prompting) 전략을 평가했습니다: LLM이 형태소 분석을 수행한 후 규칙 기반의 가나 (Kana) 변환을 수행하는 파싱 모드 (Parse mode), 그리고 LLM이 가나 읽기를 직접 예측하는 직접 모드 (Direct mode)입니다. 결과에 따르면 모델 크기, 버전, 그리고 일본어 특화 학습이 핵심 요소임을 보여주며, 가장 우수한 LLM은 기존의 가장 우수한 도구(1.03%) 대비 0.52% 미만의 가나 문자 오류율 (Kana character error rate)을 달성했습니다. 규칙 기반의 후처리 (Post-processing)가 LLM의 복잡한 발음 규칙 처리 부담을 덜어주기 때문에, 대부분의 모델에서 파싱 모드가 직접 모드보다 성능이 뛰어납니다. 또한 우리는 LLM이 예측한 가나를 가나 입력 방식의 TTS에 입력하는 것이 엔드 투 엔드 (End-to-end) TTS보다 더 나은 발음을 생성한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

음소-자소 변환(G2P)을 위한 대규모 언어 모델(LLM) 벤치마킹: 일본어 사례 연구

요약

핵심 포인트

댓글