Mega-ASR: 야생 환경 음성 인식을 위한 최초의 파운데이션 모델 (Foundation Model)
요약
야생 환경의 음성 인식을 위해 설계된 최초의 파운데이션 모델인 Mega-ASR을 소개합니다. SFT와 강화학습을 통해 다양한 음향 시나리오를 학습하여 기존 SOTA 대비 성능을 대폭 향상했습니다.
핵심 포인트
- 야생 환경 음성 인식을 위한 최초의 파운데이션 모델
- SFT 및 강화학습을 통한 260만 개 샘플 학습
- 7개 원자적 및 54개 복합 음향 시나리오 대응
- 기존 SOTA 대비 최대 30% 성능 향상 달성
Mega-ASR: 야생 환경 (in-the-wild) 음성 인식을 위한 최초의 파운데이션 모델 (Foundation Model)
점진적 지도 미세 조정 (SFT) 및 강화학습 (RL)을 통해 7개의 원자적 (atomic) 시나리오와 54개의 복합 (compound) 음향 시나리오에 걸친 260만 개의 샘플로 학습되었으며, 까다로운 벤치마크에서 최신 기술 (SOTA) 대비 최대 30%의 성능 향상을 달성했습니다.
논문 (Paper):
https://huggingface.co/papers/2605.19833
…
모델 (Model):
https://huggingface.co/zhifeixie/Mega-ASR
…
데이터셋 (Dataset):
https://huggingface.co/datasets/zhifeixie/Voices-in-the-Wild-2M
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기