본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 22. 01:34

Mega-ASR: 야생 환경(in-the-wild) 음성 인식을 위한 최초의 파운데이션 모델 (Foundation Model)

요약

야생 환경의 음성 인식을 위해 설계된 최초의 파운데이션 모델인 Mega-ASR을 소개합니다. 점진적 SFT와 RL을 활용해 다양한 음향 시나리오를 학습하여 기존 SOTA 대비 뛰어난 성능을 입증했습니다.

핵심 포인트

  • 야생 환경(in-the-wild) 음성 인식용 최초 파운데이션 모델
  • SFT 및 RL을 통한 260만 개 샘플 학습
  • 7개 원자적 및 54개 복합 음향 시나리오 대응
  • 기존 SOTA 대비 최대 30% 성능 향상 달성

Mega-ASR: 야생 환경(in-the-wild) 음성 인식을 위한 최초의 파운데이션 모델 (Foundation Model)

점진적 SFT (Supervised Fine-Tuning) 및 RL (Reinforcement Learning)을 통해 7개의 원자적 (atomic) 시나리오와 54개의 복합적 (compound) 음향 시나리오에 걸친 260만 개의 샘플로 학습되었으며, 까다로운 벤치마크에서 SOTA (State-of-the-Art) 대비 최대 30%의 성능 향상을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0