빠른 판단, 신중한 대상: 확산 증강(Diffusion Augmentation)을 이용한 이중 프로세스 다자간 발화 순서
요약
다자간 음성 대화 시스템의 신뢰할 수 있는 발화 순서 교대를 위한 2단계 오디오 파이프라인을 제안합니다. 확산 모델 기반의 데이터 증강 기법을 통해 발화 경계 탐지 및 다음 화자 예측 성능을 향상시켰습니다.
핵심 포인트
- 다자간 오디오 처리를 위한 2단계(Fast trigger & Lightweight verifier) 파이프라인 제안
- 발화 경계 트리거와 실제 발화권 전송 여부를 분리하여 처리
- Diffusion 기반의 레이블 보존형 배경 오디오 혼합 증강 전략 활용
- 기존 베이스라인 대비 향상된 전환(Shift) 탐지 성능 입증
신뢰할 수 있는 발화 순서 교대(Turn-taking)는 음성 대화 시스템(Spoken dialogue systems)에 있어 필수적입니다. 그러나 기존의 대부분의 방법은 2인 대화 상호작용을 위해 설계되었으며, 중첩(Overlap)과 급격한 화자 변화가 포함된 현실적인 다자간(Multiparty) 오디오를 처리하는 데 어려움을 겪습니다. 본 연구에서는 VoxConverse 데이터셋을 통해 다자간 발화 순서 교대를 연구하며, 발화 경계(Turn boundary)를 트리거할 시점과 실제로 발화권(Floor)이 전송되는지 여부를 분리하는 오디오 전용 2단계 파이프라인을 제안합니다. 빠른 트리거(Fast trigger)는 오디오를 스캔하여 발화 종료 후보 시간을 제안하고, 경량 검증기(Lightweight verifier)는 해당 시점에만 실행되어 extsc{Hold} 또는 extsc{Shift}를 결정하고 다음 화자 예측(Next-speaker prediction)을 지원합니다. 우리는 비교 가능성을 위해 전체 다자간 설정과 통제된 이자간(Dyadic) top-2 투영(Projection) 환경에서의 결과를 보고합니다. 또한 데이터 증강(Data augmentation) 전략으로서 확산 기반(Diffusion-based)의 레이블 보존형 배경 오디오 혼합(Label-preserving background-audio mixing)을 조사합니다. 결과에 따르면, 베이스라인(Baseline) 대비 향상된 전환(Shift) 탐지 성능을 보였으며, 확산 증강(Diffusion augmentation)을 통해 추가적인 성능 향상이 이루어졌음을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기