arXiv논문2026. 06. 18. 11:17

전이 학습 (Transfer learning) 및 데이터 증강 (Data Augmentation)을 이용한 저자원 언어 중국어 방언 판별

요약

저자원 환경에서의 중국어 방언 판별을 위해 전이 학습과 데이터 증강을 결합한 새로운 프레임워크(CDDTLDA)를 제안합니다. 소스 측 ASR 모델을 활용하고 셀프 어텐션 메커니즘으로 공통 의미 특징을 포착하여 성능을 극대화했습니다.

핵심 포인트

전이 학습과 데이터 증강을 통한 저자원 언어 문제 해결
속도, 피치, 노이즈 교란을 이용한 효과적인 데이터 증강 기법 적용
셀프 어텐션 메커니즘을 통한 소스-타겟 간 공통 의미 특징 추출
기존 SOTA 모델 대비 우수한 중국어 방언 판별 성능 입증

중국어 방언 판별 (Chinese dialects discrimination)은 희소한 주석 자원 (annotation resource)으로 인해 도전적인 자연어 처리 (NLP) 과제입니다. 본 논문에서는 자원 부족 문제를 극복하기 위해 전이 학습 (transfer learning) 및 데이터 증강 (data augmentation)을 활용한 새로운 중국어 방언 판별 프레임워크 (CDDTLDA)를 개발합니다. 구체적으로, 먼저 상대적으로 규모가 큰 중국어 방언 코퍼스 (corpus)를 사용하여 소스 측 자동 음성 인식 (ASR) 모델을 학습시킵니다. 그다음, 단순하지만 효과적인 데이터 증강 방법 (즉, 속도, 피치 및 노이즈 교란)을 채택하여 타겟 측의 저자원 중국어 방언을 증강하고, 이전의 소스 측 ASR 모델을 기반으로 또 다른 타겟 ASR 모델을 미세 조정 (fine-tune)합니다. 동시에, 셀프 어텐션 (self-attention) 메커니즘을 사용하여 소스 측과 타겟 측 ASR 모델 간의 잠재적인 공통 의미 특징 (semantic features)을 포착할 수 있습니다. 마지막으로, 타겟 ASR 모델 내의 숨겨진 의미 표현 (hidden semantic representation)을 추출하여 중국어 방언 판별을 수행합니다. 광범위한 실험 결과는 우리의 모델이 두 개의 벤치마크 중국어 방언 코퍼스에서 최첨단 (state-of-the-art) 방법들을 유의미하게 능가함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

전이 학습 (Transfer learning) 및 데이터 증강 (Data Augmentation)을 이용한 저자원 언어 중국어 방언 판별

요약

핵심 포인트

댓글