arXiv논문2026. 06. 10. 11:17

Mixture of Experts와 Dynamic Downsampling을 통한 다국어 LLM 기반 ASR 성능 향상

요약

본 연구는 다국어 일반화와 모달리티 정렬을 목표로 하는 프로젝터 기반 LLM-ASR 프레임워크를 제안합니다. MoE 아키텍처와 CIF 메커니즘을 결합하여 기존 베이스라인 모델보다 향상된 성능을 입증했습니다.

핵심 포인트

MoE 아키텍처를 통한 교차 언어 적응성 향상
CIF 메커니즘을 활용한 동적 다운샘플링 및 모달리티 정렬
기존 베이스라인 모델을 능가하는 ASR 성능 달성
강력하고 일반화 가능한 LLM 기반 ASR 시스템 구축

대규모 언어 모델 (LLMs)의 급격한 발전은 자동 음성 인식 (ASR)의 새로운 지평을 열었으며, 이들의 효과적인 통합은 매우 중요하면서도 도전적인 연구 방향이 되었습니다. 이를 위해, 본 연구는 다국어 일반화 (multilingual generalization) 및 모달리티 정렬 (modality alignment)의 핵심 과제를 목표로 하는 프로젝터 기반 LLM-ASR 프레임워크를 제안합니다. 우리의 접근 방식은 교차 언어 적응성 (cross-lingual adaptability)을 향상시키기 위해 Mixture of Experts (MoE) 아키텍처를 포함하며, 동적 다운샘플링 (dynamic downsampling) 및 모달리티 정렬을 위해 Continuous Integrate-and-Fire (CIF) 메커니즘을 사용합니다. 실험 결과, 이러한 구성 요소들의 결합이 강력한 베이스라인 모델들을 능가하는 상당한 성능 향상을 가져온다는 것을 보여줍니다. 제안된 방법은 더욱 정확하고, 견고하며, 일반화 가능한 LLM 기반 ASR 시스템을 구축하기 위한 단계적 진전을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mixture of Experts와 Dynamic Downsampling을 통한 다국어 LLM 기반 ASR 성능 향상

요약

핵심 포인트

댓글