arXiv논문2026. 06. 09. 10:44

TRADE: 음성 LLM을 위한 Transducer 증강 디코더

요약

음성 LLM의 실시간 스트리밍 추론 문제를 해결하기 위해 Transducer 분기를 결합한 TRADE 구조를 제안합니다. 이 모델은 프레임 동기식 음향 정렬과 LLM의 언어적 추론을 결합하여 정확도와 스트리밍 성능을 동시에 확보했습니다.

핵심 포인트

Transducer 분기를 통한 프레임 동기식 음향 정렬 구현
이중 어휘집 설계를 통한 효율적인 점수 융합
LDAA 기술로 KV-캐시 메모리 사용량 제한
Open ASR Leaderboard에서 우수한 WER 달성
외부 세그멘테이션 없는 장문 음성 처리 가능

음성 대규모 언어 모델 (Speech LLMs)은 스트리밍 추론 (streaming inference)을 위한 원칙적인 메커니즘이 부족합니다. 이들의 레이블 동기식 생성 (label-synchronous generation)은 음향 프레임 정렬 (acoustic-frame alignment)이 이루어지지 않아, 실시간 디코딩 (real-time decoding) 및 발화 종료 탐지 (end-of-utterance detection)를 어렵게 만듭니다. 우리는 오디오 인코더 (audio encoder)를 공유하고 LLM의 은닉 상태 (hidden states)를 예측 네트워크 (prediction network)로 직접 사용하는 Transducer 분기를 통해 멀티모달 LLM을 증강하는 TRADE (TRansducer-Augmented DEcoder)를 제안합니다. 이는 프레임 동기식 음향 정렬 (frame-synchronous acoustic alignment)을 LLM의 언어적 추론 (linguistic reasoning)과 결합합니다. 세 가지 설계 선택 사항이 시스템을 정확하고, 스트리밍 가능하며, 장문 처리가 가능하도록 만듭니다: (1) 긴밀하게 결합된 이중 어휘집 (dual vocabularies) — LLM 어휘집에서 유도된 컴팩트한 Transducer 어휘집을 통해 비용 없는 점수 융합 (score fusion)을 가능하게 합니다; (2) 그래디언트 정지 (gradient stopping)를 포함한 청크 동기화 스트리밍 학습 (Chunk-synchronized streaming training) — 오프라인 수준의 메모리 비용으로 학습-추론 불일치 (train-inference mismatch)를 제거합니다; (3) 국소 디코더 오디오 어텐션 (Localized Decoder Audio Attention, LDAA) — 발화 길이에 관계없이 KV-캐시 (KV-cache) 메모리를 제한하는 인과적 슬라이딩 윈도우 (causal sliding window)입니다. 단일 TRADE 체크포인트는 연속적인 지연 시간 (latency) 작동 지점에서 오프라인 및 스트리밍 디코딩을 모두 지원합니다. TRADE는 Open ASR Leaderboard에서 평균 6.71%의 WER을 달성했으며, 960ms 청크 크기를 사용한 스트리밍 인식은 동일한 체크포인트에서 8.40%에 도달했습니다. 장문 음성(long-form speech)의 경우, 외부 세그멘테이션 (segmentation) 없이 TED-LIUM에서 3.64% WER, Earnings-22에서 10.88% WER을 기록했습니다. TRADE는 문장 종료 구두점 타임스탬프를 제공하며, 이를 음향 음성 활동 탐지 (acoustic VAD)와 결합하면 음향 VAD 단독 사용 시보다 발화 종료 탐지 성능을 F_1 점수 기준 +0.03 개선합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TRADE: 음성 LLM을 위한 Transducer 증강 디코더

요약

핵심 포인트

댓글