음성 대화 시스템을 위한 참조 기반 운율 및 리듬 평가
요약
S2S AI 에이전트의 운율 및 리듬을 평가하기 위한 새로운 참조 기반 평가 체계를 제안합니다. 기존의 통합 통계 방식 대신, 인간의 대화 특성을 반영한 매칭된 참조 체계를 통해 모델의 출력물을 더 정확하고 해석 가능하게 검증합니다.
핵심 포인트
- S2S 모델 평가를 위한 운율 및 리듬 지표의 부재 문제 해결
- F0, 발화 속도, 휴지 비율 등 다양한 음성 지표 활용
- 백분위수 기반의 평가 프로토콜 및 out-of-regime 플래그 정의
- 인간 데이터와 매칭된 참조 체계를 통한 평가 정확도 향상
음성-대음성 (Speech-to-speech, S2S) AI 에이전트가 빠르게 발전하고 있지만, 평가 측면에서는 대화의 운율 (prosody) 및 리듬 (rhythm)을 측정할 수 있는 해석 가능한 음성 고유의 지표가 부족한 실정입니다. $F_0$ (기본 주파수), 발화 속도 (speaking rate), 조음 속도 (articulation rate), 그리고 휴지 (pausing)는 모델이 예측한 화자의 특성 및 상호작용 상태에 따라 변화하기 때문에, 통합된 인간 통계치는 특정 출력물을 평가하는 데 있어 보정(calibration)이 제대로 이루어지지 않을 수 있습니다. 본 연구에서는 Seamless Interaction 데이터셋에서 추출한 4,000시간 이상의 2인 영어 대화 데이터를 사용하여 $F_0$ 평균, $F_0$ 표현력 (expressivity), 발화 속도, 조음 속도, 휴지 비율 (pause ratio), 평균 휴지 시간 (mean pause duration)에 대한 매칭된 참조 체계 (matched reference regimes)를 구축합니다. 그런 다음 백분위수 기반 평가 프로토콜을 정의합니다. 즉, S2S 출력 파형에서 동일한 지표들을 추출하고, 이를 가장 유사하게 매칭된 인간 참조 계층 (human reference stratum)과 비교하여 백분위 편차를 보고하거나 5th-95th 백분위 범위를 벗어난 플래그 (out-of-regime flags)를 표시합니다. 별도로 분리된 인간 데이터 행(held-out human rows)을 대상으로 테스트했을 때, 통합된 참조 방식은 상태에 따라 조건화된 $F_0$ 표현력과 리듬에 대해 과도하게 플래그를 생성하는 반면, 매칭된 참조 방식은 플래그 발생률을 명목상의 10%에 가깝게 유지하며 편차의 방향을 해석 가능하게 만듭니다. 이러한 결과물은 지각적 및 사용자 중심 평가를 대체하기보다는 이를 보완하는 행동적 타당성 검사 (behavioral plausibility checks) 역할을 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기