arXiv논문2026. 06. 15. 11:19

MoDiCoL: 강건한 음성 인식을 위한 모듈형 진단 지속 학습 데이터셋

요약

실제 환경의 다양한 변수(소음, 악센트 등)가 동시에 발생하는 상황에 대응하기 위한 새로운 음성 인식 데이터셋 MoDiCoL을 제안합니다. 모델의 강건성이 어떻게 습득되고 전이되는지 분석하기 위한 지속 학습 커리큘럼과 전략을 연구합니다.

핵심 포인트

다양한 환경 변화를 동시에 고려한 모듈형 진단 지속 학습 데이터셋 MoDiCoL 소개
언어적 콘텐츠, 화자 특성, 음향 환경을 통제된 방식으로 분석 가능
강건성의 습득, 전이, 망각 과정을 연구하기 위한 지속 학습 커리큘럼 제안
세 가지 지속 학습 전략 평가를 통한 환경 변화 대응 통찰 제공

현대의 자동 음성 인식 (ASR) 시스템은 표준 벤치마크에서 놀라운 발전을 이루었으나, 녹음 조건, 악센트, 언어 장애 및 소음으로 인해 발생하는 실제 환경의 분포 변화 (distribution shifts) 하에서는 성능 격차가 나타나고 있습니다. 기존의 데이터셋과 벤치마크는 일반적으로 이러한 요인들을 개별적으로 분리하여 다루는데, 이는 실제 응용 분야에서 이들이 동시에 발생하는 상황을 간과하는 것입니다. 본 논문에서 우리는 모델의 강건성 (robustness)이 지속적으로 발전하는 동적인 능력으로 취급될 수 있다고 주장하며, 언어적 콘텐츠, 화자 특성 및 음향 환경을 통제된 방식으로 분석할 수 있도록 설계된 모듈형 진단 지속 학습 (Modular Diagnostic Continual Learning) 데이터셋인 MoDiCoL을 소개합니다. 나아가, 우리는 점진적인 업데이트를 시뮬레이션하고 강건성이 어떻게 습득, 전이 및 망각되는지를 연구하기 위해 실제 환경에서 영감을 얻은 지속 학습 커리큘럼을 제안합니다. 우리는 세 가지 지속 학습 전략을 평가하고, 변화하는 조건 하에서의 강건성에 대한 상세한 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MoDiCoL: 강건한 음성 인식을 위한 모듈형 진단 지속 학습 데이터셋

요약

핵심 포인트

댓글