arXiv논문2026. 06. 18. 11:19

중국어 방언을 향한 음성 기반 엔드투엔드 (End-to-End) 언어 식별

요약

중국어 방언 식별을 위해 텍스트 대신 음성 기반 특징을 활용하는 엔드투엔드 모델을 제안합니다. CNN과 HMM-DNN, 어텐션 메커니즘을 결합하여 미세한 방언 차이를 효과적으로 구분함을 입증했습니다.

핵심 포인트

텍스트 기반 방식의 한계를 극복하기 위한 음성 기반 특징 탐구
CNN과 MFCC 특징을 결합한 언어 식별 모델 설계
어텐션 메커니즘을 통한 방언별 식별 가능 단어 추출
벤치마크 코퍼스 평가를 통해 SOTA 대비 우수성 입증

유사한 언어, 변체 및 방언 간의 언어 식별 (Language discrimination)은 도전적인 자연어 처리 (NLP) 과제입니다. 전통적인 텍스트 기반 방식은 저조한 결과를 초래합니다. 본 논문에서는 중국어 방언 간의 언어 식별에 있어 음성 기반 특징 (speech-driven features)의 효과성을 탐구합니다. 먼저, CNN 기반 언어 식별에 있어 음성 기반 MFCC 특징의 적절성을 체계적으로 탐구합니다. 그다음, 중국어 방언 단어를 예측하기 위해 HMM-DNN 기반의 엔드투엔드 (end-to-end) 음성 인식 모델을 설계합니다. 우리는 서로 다른 중국어 방언과 관련된 식별 가능한 단어를 추출하기 위해 어텐션 (attention)을 채택합니다. 마지막으로, CNN을 통해 단어 수준의 임베딩 (word-level embedding)과 MFCC 기반 특징을 결합합니다. 두 개의 벤치마크 중국어 방언 코퍼스 (corpora)를 통한 평가 결과, 제안된 음성 기반 접근 방식이 최신 기술 (state-of-the-art) 방법들과 비교하여 미세한 중국어 방언 식별에 있어 적절성과 효과성을 보임을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

중국어 방언을 향한 음성 기반 엔드투엔드 (End-to-End) 언어 식별

요약

핵심 포인트

댓글