BayLing-Duplex: 단일 자기회귀(Autoregressive) LLM을 이용한 네이티브 전이중(Full-Duplex) 음성 대화
요약
BayLing-Duplex는 별도의 VAD 모듈 없이 단일 자기회귀 LLM만으로 실시간 전이중(Full-Duplex) 음성 대화를 구현한 모델입니다. 특수 토큰을 활용해 기존 아키텍처를 유지하면서도 자연스러운 끼어들기와 턴 테이킹을 가능하게 합니다.
핵심 포인트
- 보조 모듈 없이 LLM이 직접 듣기, 말하기, 멈춤을 결정
- 특수 토큰 추가만으로 기존 LLM 아키텍처 및 스택 재사용 가능
- InstructS2S-Eval 기준 92%의 턴 테이킹 성공률 달성
- 중단(interruption) 처리 성공률 100% 기록
- 응답 품질을 유지하며 Moshi 대비 음성 응답 점수 향상
실시간 전이중(Full-Duplex) 음성 상호작용은 차세대 음성 챗봇의 핵심 기능으로, 모델이 동시에 듣고 말할 수 있게 하며 중첩(overlap), 망설임(hesitation), 끼어들기(barge-in)와 같은 자연스러운 현상을 처리할 수 있도록 합니다. LLaMA-Omni 및 GLM-4-Voice와 같은 기존 음성 언어 모델(SpeechLMs)은 여전히 턴제(turn-based) 방식이며, 사용자의 턴 종료를 표시하기 위해 외부 음성 활동 감지(Voice Activity Detection, VAD) 모듈에 의존하므로 상호작용 능력이 근본적으로 제한됩니다. 본 논문에서는 보조적인 턴 테이킹(turn-taking) 모듈 없이 단일 자기회귀(Autoregressive) LLM이 언제 듣고, 언제 말하며, 언제 멈출지를 결정하는 네이티브 전이중(Full-Duplex) SpeechLM인 BayLing-Duplex를 소개합니다. 이 설계는 표준 어휘(vocabulary)에 몇 개의 특수 토큰(special tokens)만을 추가하므로, 아키텍처의 수정 없이도 LLM 간에 전이될 수 있으며 기존의 학습 및 서빙 스택을 재사용할 수 있습니다. 공개된 GLM-4-Voice 체크포인트에서 시작하여 40만 개의 전이중(Full-Duplex) 샘플만을 사용하여 미세 조정(fine-tuning)을 수행하고 경량 DPO 단계를 거친 결과, BayLing-Duplex는 InstructS2S-Eval에서 92%의 턴 테이킹(turn-taking) 성공률과 100%의 중단(interruption) 성공률을 달성했으며, Moshi 대비 음성 응답 점수(speech-response score)를 2.17에서 3.39로 향상시켰습니다. 또한 BayLing-Duplex는 Llama Questions, Web Questions 및 Alpaca-Eval에서 기존의 턴제(turn-based) 모델과 대등하거나 이를 능가하는 성능을 보여줌으로써, 동시 듣기-말하기(listen-and-speak) 모델링이 응답 품질을 희생시키지 않음을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기