Mixture of Experts와 Dynamic Downsampling을 통한 다국어 LLM 기반 ASR 성능 향상
요약
본 연구는 다국어 일반화와 모달리티 정렬을 목표로 하는 프로젝터 기반 LLM-ASR 프레임워크를 제안합니다. MoE 아키텍처와 CIF 메커니즘을 결합하여 기존 베이스라인 모델보다 향상된 성능을 입증했습니다.
핵심 포인트
- MoE 아키텍처를 통한 교차 언어 적응성 향상
- CIF 메커니즘을 활용한 동적 다운샘플링 및 모달리티 정렬
- 기존 베이스라인 모델을 능가하는 ASR 성능 달성
- 강력하고 일반화 가능한 LLM 기반 ASR 시스템 구축
대규모 언어 모델 (LLMs)의 급격한 발전은 자동 음성 인식 (ASR)의 새로운 지평을 열었으며, 이들의 효과적인 통합은 매우 중요하면서도 도전적인 연구 방향이 되었습니다. 이를 위해, 본 연구는 다국어 일반화 (multilingual generalization) 및 모달리티 정렬 (modality alignment)의 핵심 과제를 목표로 하는 프로젝터 기반 LLM-ASR 프레임워크를 제안합니다. 우리의 접근 방식은 교차 언어 적응성 (cross-lingual adaptability)을 향상시키기 위해 Mixture of Experts (MoE) 아키텍처를 포함하며, 동적 다운샘플링 (dynamic downsampling) 및 모달리티 정렬을 위해 Continuous Integrate-and-Fire (CIF) 메커니즘을 사용합니다. 실험 결과, 이러한 구성 요소들의 결합이 강력한 베이스라인 모델들을 능가하는 상당한 성능 향상을 가져온다는 것을 보여줍니다. 제안된 방법은 더욱 정확하고, 견고하며, 일반화 가능한 LLM 기반 ASR 시스템을 구축하기 위한 단계적 진전을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기