arXiv논문2026. 06. 23. 11:05

LISE: 듣기 가능하고 해석 가능한 화자 임베딩 (Listenable Interpretable Speaker Embeddings)

요약

LISE는 사전 학습된 화자 임베딩을 소수의 구성 요소로 분해하는 라벨 프리 프레임워크입니다. 기존 ASV 성능을 유지하면서도, 인코딩된 음성 특성에 대해 인간이 청취하고 해석할 수 있는 구조화된 표현을 제공합니다.

핵심 포인트

라벨 없이 화자 임베딩을 해석 가능한 구성 요소로 분해
x-vector 및 ECAPA-TDNN의 성능(EER)을 거의 유지
청취 실험을 통해 83.9%의 화자 구별 정확도 입증
불투명한 임베딩 표현에 대한 구조적 설명력 제공

심층 신경망 (Deep neural network) 기반의 자동 화자 인증 (ASV) 시스템은 인상적인 성능을 달성하지만, 그 임베딩 표현 (embedding representations)은 여전히 불투명하며, 인코딩된 음성 특성에 대한 구조적이고 지각적으로 검증 가능한 설명을 결여하고 있습니다. 기존 방식들은 화자 속성에 대한 주석 (annotation)을 요구하거나, 청취자에 의한 해석 가능성이 검증되지 않은 대안적 표현을 도입합니다. 우리는 사전 학습된 화자 임베딩 (pretrained speaker embeddings)을 소수의 구성 요소 세트로 분해하는 라벨 프리 (label-free) 프레임워크인 LISE (Listenable Interpretable Speaker Embeddings)를 제안합니다. 이러한 분해는 화자 임베딩에 의해 어떤 정보가 인코딩되었는지에 대한 분석을 지원하는 구조화된 표현을 생성합니다. LISE는 x-vector 및 ECAPA-TDNN에서 무시할 수 있는 수준의 EER (Equal Error Rate) 저하와 함께 ASV 성능을 유지합니다. 결정적으로, 이러한 구성 요소들의 인간 청취자에 대한 해석 가능성은 청취 실험을 통해 입증되었으며, 참가자들은 83.9%의 정확도로 화자를 구별해냈습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LISE: 듣기 가능하고 해석 가능한 화자 임베딩 (Listenable Interpretable Speaker Embeddings)

요약

핵심 포인트

댓글