arXiv논문2026. 06. 15. 03:49

실시간 다자간 음성 에이전트를 위한 적응형 발화권 교대

요약

본 논문은 다자간 구두 대화에서 발화권 교대 문제를 해결하기 위해 역할극(role-playing) 음성 에이전트인 ModeratorLM을 제안합니다. 이 시스템은 스트리밍 기반의 음성 LLM과 CoT 추론을 통합했으며, RolePlayConv라는 대규모 합성 데이터셋을 구축했습니다. 실험 결과, 기존 방식 대비 발화권 교대 정밀도와 재현율이 크게 향상됨을 입증했습니다.

핵심 포인트

다자간 음성 에이전트의 핵심 과제인 발화권 교대를 다룸.
ModeratorLM은 역할극 기반으로 작동하는 스트리밍 음성 LLM이다.
RolePlayConv라는 대규모 합성 데이터셋을 구축하여 성능 검증에 활용했다.
역할 조건화를 통해 발화권 교대 정밀도와 재현율이 크게 향상되었다.

다자간 구두 대화에서의 발화권 교대(Turn-taking)는 동적한 발화 경쟁과 다양한 사용자 기대치 하에서 음성 기반 에이전트에게 여전히 근본적인 과제로 남아 있습니다. 본 논문에서는 다자간 환경에서 명시적으로 할당된 역할을 조건으로 발화권 교대 행동을 수행하는 역할극(role-playing) 음성 에이전트인 ModeratorLM을 제안합니다. 이 시스템은 청크 단위 스트리밍 방식으로 작동하는 음성 대규모 언어 모델(speech large language model)을 기반으로 구축되었습니다. 나아가, 대화 맥락과 할당된 역할을 걸쳐 사고의 사슬(chain-of-thought) 추론을 통합한 추론 증강 변형 모델을 소개합니다. 우리는 다양한 어시스턴트 역할을 가진 음성 다자간 대화에 대한 대규모 합성 데이터셋인 RolePlayConv를 구축했습니다. 실제 회의 데이터를 사용한 실험과 RolePlayConv를 활용한 실험 결과, 역할 조건화를 적용하지 않은 기준선(non-role-conditioned baselines)과 비교하여 발화권 교대 정밀도(precision)는 40% 이상, 재현율(recall)은 70% 이상 향상되었으며, 잘못된 양성 간섭(false-positive interruptions)을 크게 줄이는 것을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

실시간 다자간 음성 에이전트를 위한 적응형 발화권 교대

요약

핵심 포인트

댓글