PRISM: 공감형 음성 대화를 위한 운율 통합 멀티 에이전트 추론 프레임워크
요약
PRISM은 공감형 음성 대화를 위해 음성 인지, 응답 생성, 음성 합성을 분리하여 조정하는 멀티 에이전트 프레임워크입니다. 운율-언어 번역 메커니즘과 외부 지식 도구 호출을 통해 정서적 일치도와 응답 품질을 동시에 개선합니다.
핵심 포인트
- 음성 인지, 응답 생성, 합성을 분리한 멀티 에이전트 구조 제안
- 운율-언어 번역 메커니즘을 통한 LLM 추론 안정화
- 외부 지식 도구를 활용한 온디맨드 공감형 대화 생성
- 공감도, 운율 적절성, 텍스트 품질 지표의 일관된 개선 입증
공감형 음성 대화 시스템(Empathetic spoken dialogue systems)은 의미론적으로 적절한 응답뿐만 아니라 정서적으로 일치하는 운율적 표현(prosodic expression)을 필요로 합니다. 그러나 계층적 파이프라인(cascade pipelines)은 음성-텍스트 변환(speech-to-text conversion) 과정에서 음향적 단서(acoustic cues)를 버리는 경우가 많으며, 엔드투엔드(end-to-end) 음성 모델은 감정과 지식 통합에 대한 해석 가능한 제어 능력이 부족합니다. 이러한 과제를 해결하기 위해, 우리는 음성 인지(speech perception), 응답 생성(response generation), 음성 합성(speech synthesis)을 조정된 구성 요소로 분리하는 공감형 음성 대화를 위한 멀티 에이전트 프레임워크인 PRISM을 제안합니다. PRISM은 대규모 언어 모델(Large Language Model, LLM)의 추론을 안정화하기 위해 운율-언어 번역(prosody-to-language translation) 메커니즘을 도입하며, 공감형 대화 생성을 위해 외부 지식 도구(external knowledge tools)를 온디맨드(on-demand) 방식으로 호출할 수 있게 합니다. 실험 결과, PRISM은 객관적 및 주관적 지표 전반에서 공감도, 운율의 적절성, 텍스트 응답 생성 품질 측면에서 일관된 개선을 달성함을 입증했습니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/Bxzfrm/PRISM.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기