TRADE: 음성 LLM을 위한 Transducer 증강 디코더
요약
음성 LLM의 실시간 스트리밍 추론 문제를 해결하기 위해 Transducer 분기를 결합한 TRADE 구조를 제안합니다. 이 모델은 프레임 동기식 음향 정렬과 LLM의 언어적 추론을 결합하여 정확도와 스트리밍 성능을 동시에 확보했습니다.
핵심 포인트
- Transducer 분기를 통한 프레임 동기식 음향 정렬 구현
- 이중 어휘집 설계를 통한 효율적인 점수 융합
- LDAA 기술로 KV-캐시 메모리 사용량 제한
- Open ASR Leaderboard에서 우수한 WER 달성
- 외부 세그멘테이션 없는 장문 음성 처리 가능
음성 대규모 언어 모델 (Speech LLMs)은 스트리밍 추론 (streaming inference)을 위한 원칙적인 메커니즘이 부족합니다. 이들의 레이블 동기식 생성 (label-synchronous generation)은 음향 프레임 정렬 (acoustic-frame alignment)이 이루어지지 않아, 실시간 디코딩 (real-time decoding) 및 발화 종료 탐지 (end-of-utterance detection)를 어렵게 만듭니다. 우리는 오디오 인코더 (audio encoder)를 공유하고 LLM의 은닉 상태 (hidden states)를 예측 네트워크 (prediction network)로 직접 사용하는 Transducer 분기를 통해 멀티모달 LLM을 증강하는 TRADE (TRansducer-Augmented DEcoder)를 제안합니다. 이는 프레임 동기식 음향 정렬 (frame-synchronous acoustic alignment)을 LLM의 언어적 추론 (linguistic reasoning)과 결합합니다. 세 가지 설계 선택 사항이 시스템을 정확하고, 스트리밍 가능하며, 장문 처리가 가능하도록 만듭니다: (1) 긴밀하게 결합된 이중 어휘집 (dual vocabularies) — LLM 어휘집에서 유도된 컴팩트한 Transducer 어휘집을 통해 비용 없는 점수 융합 (score fusion)을 가능하게 합니다; (2) 그래디언트 정지 (gradient stopping)를 포함한 청크 동기화 스트리밍 학습 (Chunk-synchronized streaming training) — 오프라인 수준의 메모리 비용으로 학습-추론 불일치 (train-inference mismatch)를 제거합니다; (3) 국소 디코더 오디오 어텐션 (Localized Decoder Audio Attention, LDAA) — 발화 길이에 관계없이 KV-캐시 (KV-cache) 메모리를 제한하는 인과적 슬라이딩 윈도우 (causal sliding window)입니다. 단일 TRADE 체크포인트는 연속적인 지연 시간 (latency) 작동 지점에서 오프라인 및 스트리밍 디코딩을 모두 지원합니다. TRADE는 Open ASR Leaderboard에서 평균 6.71%의 WER을 달성했으며, 960ms 청크 크기를 사용한 스트리밍 인식은 동일한 체크포인트에서 8.40%에 도달했습니다. 장문 음성(long-form speech)의 경우, 외부 세그멘테이션 (segmentation) 없이 TED-LIUM에서 3.64% WER, Earnings-22에서 10.88% WER을 기록했습니다. TRADE는 문장 종료 구두점 타임스탬프를 제공하며, 이를 음향 음성 활동 탐지 (acoustic VAD)와 결합하면 음향 VAD 단독 사용 시보다 발화 종료 탐지 성능을 F_1 점수 기준 +0.03 개선합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기