빠른 음성 인식을 위한 비자기회귀적 최소 베이즈 위험 (Non-Autoregressive Minimum Bayes' Risk) 디코딩
요약
비자기회귀적(NAR) 디코딩의 성능 저하 문제를 해결하기 위해 최소 베이즈 위험(MBR) 기반의 새로운 프레임워크인 NAR-MBR을 제안합니다. 단 한 번의 순전파로 여러 샘플을 추출하여 기대 효용을 최대화함으로써, 속도와 정확도를 동시에 개선했습니다.
핵심 포인트
- NAR 디코딩의 병렬 생성 장점과 성능 한계 극복
- 최소 베이즈 위험(MBR) 기반의 새로운 디코딩 프레임워크 제안
- 단일 순전파를 통한 효율적인 다중 샘플 추출 방식 도입
- 기존 NAR 대비 성능 향상 및 AR 대비 빠른 실행 속도 입증
비자기회귀적 (Non-autoregressive, NAR) 디코딩은 출력 토큰을 병렬로 생성하여, 왼쪽에서 오른쪽으로 순차적으로 생성하는 자기회귀적 (Autoregressive, AR) 디코딩보다 음성 인식을 더 빠르게 만듭니다. 하지만 NAR 디코딩은 이전에 생성된 토큰을 조건으로 하여 불확실성을 해결할 수 없기 때문에 인식 성능이 저하됩니다. 이 문제를 해결하기 위해, 우리는 출력 확률을 최대화하는 대신 NAR 모델의 출력 확률로부터 추출된 샘플들로부터 계산된 기대 효용 (expected utility)을 최대화하는 최소 베이즈 위험 (minimum Bayes' risk, MBR) 디코딩에 기반한 새로운 NAR 디코딩 프레임워크인 NAR-MBR 디코딩을 제안합니다. 특히, NAR 모델의 특성을 활용함으로써 단 한 번의 순전파 (forward computation)만으로 여러 샘플을 효율적으로 얻을 수 있습니다. LibriSpeech, Switchboard, AMI 및 웹 프레젠테이션 코퍼스 (web presentation corpus)에 걸친 실험을 통해 우리의 NAR-MBR 디코딩이 이전의 NAR 디코딩보다 뛰어난 성능을 보였으며, AR 디코딩보다 빠르게 실행됨을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기