전이중(Full-Duplex) 음성 모델에서의 다면적 상호작용 정렬
요약
전이중(Full-duplex) 음성 모델의 상호작용성을 개선하기 위한 강화학습 기반의 사후 훈련 정렬 방법을 제안합니다. 일시 정지, 발화 전환, 맞장구, 사용자 중단 등 네 가지 핵심 축을 최적화하여 자연스러운 대화 흐름을 구현합니다.
핵심 포인트
- 강화학습을 통한 전이중 음성 모델의 상호작용성 최적화
- 발화 전환, 맞장구 등 4가지 핵심 상호작용 축 정의
- 의미론적 저하 방지를 위한 LLM 기반 보상 함수 활용
- Moshi 및 PersonaPlex 모델 적용 및 성능 개선 입증
전이중(Full-duplex) 음성 대화 모델은 동시에 듣고 말할 수 있어 자연스러운 대화를 위한 유망한 아키텍처(architecture)입니다. 그러나 현재의 모델들은 토큰 수준의 우도 최대화(token-level likelihood maximization)를 통한 지도 학습(supervised learning)만으로 훈련되며, 이는 상호작용 수준의 행동을 직접적으로 최적화하지 못하여 과도한 침묵이나 부적절한 타이밍의 발화 전환(turn-taking)과 같은 상호작용성 문제를 야기합니다. 최근 연구에서는 상호작용성을 개선하기 위해 강화학습(RL)을 적용하고 있으나, 기존 방법들은 보상(reward) 설정 시 제한된 범위의 상호작용 행동만을 다룹니다. 본 연구에서는 강화학습(RL)을 통해 전이중 음성 대화 모델의 상호작용성을 포괄적으로 개선하는 사후 훈련 정렬(post-training alignment) 방법을 제안합니다. 우리는 상호작용의 네 가지 핵심 축인 일시 정지 처리(pause handling), 발화 전환(turn-taking), 맞장구(backchanneling), 그리고 사용자 중단(user interruption)을 다룹니다. 각 축에 대해 인간의 대화 코퍼스(corpora)에서 짧은 오디오 세그먼트를 추출하고, 축별 특화된 보상 함수를 통해 모델을 최적화합니다. 또한, 응답 품질을 위한 추가적인 LLM 기반 보상을 사용하여 의미론적 저하(semantic degradation)를 방지합니다. 우리는 이 방법을 두 가지 오픈 소스 모델인 Moshi와 PersonaPlex에 적용하였으며, 녹음된 오디오를 사용한 오프라인 평가와 실시간 다회차 대화(multi-turn dialogue) 평가 모두에서 상호작용성이 일관되게 개선됨을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기