ASR를 위한 Speech-LLM 통합의 재고: 인터리빙(Interleaving)을 통한 효과적인 음성-텍스트 공동 학습
요약
Speech-LLM의 ASR 성능 향상을 위해 음성-텍스트 시퀀스를 인터리빙하는 JSTIP 학습 전략을 제안합니다. 실험 결과, 기존 공동 학습 방식보다 개체 정확도가 향상되었으며 모달리티 간극을 줄여 LLM의 사전 지식을 효과적으로 보존함을 입증했습니다.
핵심 포인트
- JSTIP: 단어 및 세그먼트 수준의 인터리빙을 통한 새로운 사전 학습 전략
- ASR 작업에서 개체 정확도(entity accuracy)의 일관된 향상 확인
- 도메인 전사 텍스트를 활용하여 도메인 적응 과정을 단순화
- 음성-텍스트 모달리티 간극을 줄여 LLM의 생성적 사전 지식 보존
Speech-LLM 통합은 광범위한 텍스트 사전 학습 (textual pretraining)을 활용하여 유망한 결과를 보여주었으나, 자동 음성 인식 (ASR)에 대한 구체적인 이점은 여전히 불분명합니다. 우리는 지도 학습 기반의 ASR 학습 데이터가 증가함에 따라 LLM 사전 지식 (priors)의 기여도가 덜 뚜렷해지며, 단순한 음성-텍스트 공동 학습 (joint training)은 텍스트 지식을 충분히 활용하지 못한다는 점을 관찰했습니다. 따라서 우리는 연속적인 입력을 수용하는 Speech-LLM 아키텍처를 위해, 정렬된 쌍 내에서 단어 수준 및 세그먼트 수준의 인터리빙된 음성-텍스트 시퀀스를 구축하는 ASR 지향적 사전 학습 전략인 JSTIP (Joint Speech-Text Interleaved Pretraining)를 제안합니다. 38,000시간의 ASR 데이터를 사용한 실험 결과, ASR 전용 모델 및 음성-텍스트 공동 학습 베이스라인과 비교하여 개체 정확도 (entity accuracy)가 일관되게 향상됨을 보여주었습니다. JSTIP는 합성된 음성-텍스트 쌍을 사용하는 것과 대등한 수준의 개체 인식 성능을 도메인 전사 텍스트 (domain transcription text)를 사용하여 달성함으로써 도메인 적응 (domain adaptation)을 단순화합니다. 텍스트 사전 학습과 도메인 텍스트 데이터의 이점을 활용하는 JSTIP는 의료 개체 인식 (medical entity recognition) 분야에서 오픈 소스 ASR 및 Speech-LLM 시스템과 경쟁할 만한 성능을 보입니다. 제로샷 음성 질의응답 (zero-shot speech question answering) 동작은 인터리빙이 음성-텍스트 모달리티 간극 (modality gap)을 줄이고 LLM의 생성적 사전 지식 (generative prior)을 보존한다는 점을 더욱 시사하며, 이것이 ASR 작업에서 개체 인식 성능이 향상된 이유일 가능성이 높습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기