본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:17

전이 학습 (Transfer learning) 및 데이터 증강 (Data Augmentation)을 이용한 저자원 언어 중국어 방언 판별

요약

저자원 환경에서의 중국어 방언 판별을 위해 전이 학습과 데이터 증강을 결합한 새로운 프레임워크(CDDTLDA)를 제안합니다. 소스 측 ASR 모델을 활용하고 셀프 어텐션 메커니즘으로 공통 의미 특징을 포착하여 성능을 극대화했습니다.

핵심 포인트

  • 전이 학습과 데이터 증강을 통한 저자원 언어 문제 해결
  • 속도, 피치, 노이즈 교란을 이용한 효과적인 데이터 증강 기법 적용
  • 셀프 어텐션 메커니즘을 통한 소스-타겟 간 공통 의미 특징 추출
  • 기존 SOTA 모델 대비 우수한 중국어 방언 판별 성능 입증

중국어 방언 판별 (Chinese dialects discrimination)은 희소한 주석 자원 (annotation resource)으로 인해 도전적인 자연어 처리 (NLP) 과제입니다. 본 논문에서는 자원 부족 문제를 극복하기 위해 전이 학습 (transfer learning) 및 데이터 증강 (data augmentation)을 활용한 새로운 중국어 방언 판별 프레임워크 (CDDTLDA)를 개발합니다. 구체적으로, 먼저 상대적으로 규모가 큰 중국어 방언 코퍼스 (corpus)를 사용하여 소스 측 자동 음성 인식 (ASR) 모델을 학습시킵니다. 그다음, 단순하지만 효과적인 데이터 증강 방법 (즉, 속도, 피치 및 노이즈 교란)을 채택하여 타겟 측의 저자원 중국어 방언을 증강하고, 이전의 소스 측 ASR 모델을 기반으로 또 다른 타겟 ASR 모델을 미세 조정 (fine-tune)합니다. 동시에, 셀프 어텐션 (self-attention) 메커니즘을 사용하여 소스 측과 타겟 측 ASR 모델 간의 잠재적인 공통 의미 특징 (semantic features)을 포착할 수 있습니다. 마지막으로, 타겟 ASR 모델 내의 숨겨진 의미 표현 (hidden semantic representation)을 추출하여 중국어 방언 판별을 수행합니다. 광범위한 실험 결과는 우리의 모델이 두 개의 벤치마크 중국어 방언 코퍼스에서 최첨단 (state-of-the-art) 방법들을 유의미하게 능가함을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0