음성 대화 시스템을 위한 참조 기반 운율 및 리듬 평가

음성-대음성 (Speech-to-speech, S2S) AI 에이전트가 빠르게 발전하고 있지만, 평가 측면에서는 대화의 운율 (prosody) 및 리듬 (rhythm)을 측정할 수 있는 해석 가능한 음성 고유의 지표가 부족한 실정입니다. $F_0$ (기본 주파수), 발화 속도 (speaking rate), 조음 속도 (articulation rate), 그리고 휴지 (pausing)는 모델이 예측한 화자의 특성 및 상호작용 상태에 따라 변화하기 때문에, 통합된 인간 통계치는 특정 출력물을 평가하는 데 있어 보정(calibration)이 제대로 이루어지지 않을 수 있습니다. 본 연구에서는 Seamless Interaction 데이터셋에서 추출한 4,000시간 이상의 2인 영어 대화 데이터를 사용하여 $F_0$ 평균, $F_0$ 표현력 (expressivity), 발화 속도, 조음 속도, 휴지 비율 (pause ratio), 평균 휴지 시간 (mean pause duration)에 대한 매칭된 참조 체계 (matched reference regimes)를 구축합니다. 그런 다음 백분위수 기반 평가 프로토콜을 정의합니다. 즉, S2S 출력 파형에서 동일한 지표들을 추출하고, 이를 가장 유사하게 매칭된 인간 참조 계층 (human reference stratum)과 비교하여 백분위 편차를 보고하거나 5th-95th 백분위 범위를 벗어난 플래그 (out-of-regime flags)를 표시합니다. 별도로 분리된 인간 데이터 행(held-out human rows)을 대상으로 테스트했을 때, 통합된 참조 방식은 상태에 따라 조건화된 $F_0$ 표현력과 리듬에 대해 과도하게 플래그를 생성하는 반면, 매칭된 참조 방식은 플래그 발생률을 명목상의 10%에 가깝게 유지하며 편차의 방향을 해석 가능하게 만듭니다. 이러한 결과물은 지각적 및 사용자 중심 평가를 대체하기보다는 이를 보완하는 행동적 타당성 검사 (behavioral plausibility checks) 역할을 합니다.

Insights

음성 대화 시스템을 위한 참조 기반 운율 및 리듬 평가

요약

핵심 포인트

댓글

파운데이션 모델을 활용한 그래프 기반 에너지 시계열의 관계적 및 순차적 컨포멀 추론 (Conformal Inference)

피드포워드 레이어에서의 명시적 퍼지 논리: 자기 망각 양화사가 판독 가능한 문법 허가 탐지기를 발견하다

심층 신경망의 저차원 위상수학 (Low-dimensional topology of deep neural networks)

Review Residuals: Transformer를 위한 업데이트 조건부 잔차 게이팅 (Update-Conditioned Residual

파운데이션 모델을 활용한 그래프 기반 에너지 시계열의 관계적 및 순차적 컨포멀 추론 (Conformal Inference)

피드포워드 레이어에서의 명시적 퍼지 논리: 자기 망각 양화사가 판독 가능한 문법 허가 탐지기를 발견하다

심층 신경망의 저차원 위상수학 (Low-dimensional topology of deep neural networks)

Review Residuals: Transformer를 위한 업데이트 조건부 잔차 게이팅 (Update-Conditioned Residual