ASR를 위한 Speech-LLM 통합의 재고: 인터리빙(Interleaving)을 통한 효과적인 음성-텍스트 공동 학습

Speech-LLM 통합은 광범위한 텍스트 사전 학습 (textual pretraining)을 활용하여 유망한 결과를 보여주었으나, 자동 음성 인식 (ASR)에 대한 구체적인 이점은 여전히 불분명합니다. 우리는 지도 학습 기반의 ASR 학습 데이터가 증가함에 따라 LLM 사전 지식 (priors)의 기여도가 덜 뚜렷해지며, 단순한 음성-텍스트 공동 학습 (joint training)은 텍스트 지식을 충분히 활용하지 못한다는 점을 관찰했습니다. 따라서 우리는 연속적인 입력을 수용하는 Speech-LLM 아키텍처를 위해, 정렬된 쌍 내에서 단어 수준 및 세그먼트 수준의 인터리빙된 음성-텍스트 시퀀스를 구축하는 ASR 지향적 사전 학습 전략인 JSTIP (Joint Speech-Text Interleaved Pretraining)를 제안합니다. 38,000시간의 ASR 데이터를 사용한 실험 결과, ASR 전용 모델 및 음성-텍스트 공동 학습 베이스라인과 비교하여 개체 정확도 (entity accuracy)가 일관되게 향상됨을 보여주었습니다. JSTIP는 합성된 음성-텍스트 쌍을 사용하는 것과 대등한 수준의 개체 인식 성능을 도메인 전사 텍스트 (domain transcription text)를 사용하여 달성함으로써 도메인 적응 (domain adaptation)을 단순화합니다. 텍스트 사전 학습과 도메인 텍스트 데이터의 이점을 활용하는 JSTIP는 의료 개체 인식 (medical entity recognition) 분야에서 오픈 소스 ASR 및 Speech-LLM 시스템과 경쟁할 만한 성능을 보입니다. 제로샷 음성 질의응답 (zero-shot speech question answering) 동작은 인터리빙이 음성-텍스트 모달리티 간극 (modality gap)을 줄이고 LLM의 생성적 사전 지식 (generative prior)을 보존한다는 점을 더욱 시사하며, 이것이 ASR 작업에서 개체 인식 성능이 향상된 이유일 가능성이 높습니다.

Insights

ASR를 위한 Speech-LLM 통합의 재고: 인터리빙(Interleaving)을 통한 효과적인 음성-텍스트 공동 학습

요약

핵심 포인트

댓글

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법