arXiv논문2026. 04. 30. 13:32

인코더 주도의 음성 인식 모델에 대한 텍스트 활용

요약

본 논문은 인코더가 주도하는(encoder-dominated) 아키텍처를 활용하여 음성 인식의 속도를 개선하고, 텍스트 전용 데이터(text-only data)를 효율적으로 통합하는 방법을 제시합니다. 연구진들은 모달리티 매칭 및 동적 다운샘플링 같은 기법들을 비교 분석하며, 더 큰 인코더와 작은 디코더 조합이 기존 아키텍처에 필적하거나 능가하는 성능을 보임을 입증했습니다. 또한, 복잡한 모델보다 단순한 구성(예: 랜덤 지속 시간 모델)이 오히려 효과적일 수 있음을 보여주며 연구의 실용성을 높였습니다.

핵심 포인트

음성 인식 개선을 위해 인코더가 주도하는 아키텍처를 활용하여 빠른 인식을 구현할 수 있다.
텍스트 전용 데이터(text-only data)를 통합하기 위한 모달리티 매칭 및 동적 다운샘플링 기법들을 비교 분석했다.
실험 결과, 큰 인코더와 작은 디코더 조합이 기존의 대형 디코더 기반 아키텍처에 필적하거나 더 나은 성능을 보였다.
복잡한 모델 구조보다 랜덤 지속 시간 모델과 같은 단순하고 간단한 구성이 오히려 높은 효율성과 실용성을 제공할 수 있다.

본 논문은 인코더가 주도하는 (encoder-dominated) 모델을 통해 더 빠른 인식을 가능하게 하는 데 초점을 맞추어, 음성 인식을 개선하기 위해 텍스트 전용 데이터 (text-only data) 를 효율적으로 활용하는 방법을 조사합니다. 우리는 인코더 내에서 텍스트 수준의 표현 (representations) 을 달성하기 위한 모달리티 매칭 (modality matching) 과 동적 다운샘플링 (dynamic downsampling) 을 포함한 텍스트 전용 데이터를 통합하는 기법들을 포괄적으로 비교합니다. LibriSpeech 코퍼스에 대한 실험 결과, 더 큰 인코더와 더 작은 디코더를 사용하는 것이 더 큰 디코더를 사용하는 아키텍처의 성능과 같거나 이를 능가할 수 있음을 보여줍니다. 우리는 랜덤 지속 시간 모델 (random duration models) 과 같은 단순한 구성이 복잡한 대안보다 종종 더 효과적이며, 이는 훈련 파이프라인을 현저히 단순화한다는 점을 입증합니다. 모든 코드와 레시피는 공개적으로 제공되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인코더 주도의 음성 인식 모델에 대한 텍스트 활용

요약

핵심 포인트

댓글