arXiv논문2026. 06. 10. 11:16

자기지도 학습 음성 인식 모델에서의 화자 그룹 인코딩

요약

자기지도 학습 음성 인식 모델(S3Ms)이 성별, 연령, 인종 등 다양한 화자 그룹 정보를 어떻게 인코딩하는지 분석한 연구입니다. 미세 조정 방식에 따라 음성학적 또는 의미론적 정보의 유지 여부가 달라짐을 밝히고, 공정성 향상 알고리즘의 영향을 조사했습니다.

핵심 포인트

S3Ms는 다양한 화자 그룹 범주 정보를 인코딩함
SID 미세 조정은 음성학적 변동성이 큰 범주를 증폭함
ASR 미세 조정은 음성학적 정보는 버리지만 의미론적 정보는 유지함
공정성 알고리즘은 주로 음성학적 화자 그룹 정보에 영향을 미침
레이어별 SGI 인코딩 방식과 임베딩 하위 차원을 식별함

우리는 자기지도 학습 음성 인식 모델 (Self-supervised Speech Recognition Models, S3Ms)이 화자 그룹 (Speaker Groups, SGs)에 대해 무엇을 학습하는지 조사합니다. 우리는 S3Ms의 여러 상태를 검토합니다: 사전 학습된 (pretrained) 상태, 화자 식별 (Speaker Identification, SID)에 대해 미세 조정된 (finetuned) 상태, 자동 음성 인식 (Automatic Speech Recognition, ASR)에 대해 미세 조정된 상태, 그리고 공정성 향상 알고리즘을 사용하여 ASR 미세 조정을 거친 상태입니다. 우리는 S3Ms가 성별, 연령, 방언, 인종, 그리고 원어민 여부를 포함한 여러 화자 그룹 범주 (Speaker Group Categories, SGCs)에 대한 정보를 인코딩한다는 것을 발견했습니다. 우리는 SID를 위한 미세 조정이 특정 SGCs, 즉 그 변동성이 음성학적 (phonetic) 성격이 더 강한 범주들을 증폭시키지만, 다른 SGCs, 즉 그 변동성이 의미론적 (semantic) 성격이 더 강한 범주들은 증폭시키지 않는다는 것을 발견했습니다. 반면에, ASR을 위한 미세 조정은 음성학적으로 변동하는 화자 그룹 정보 (Speaker Group Information, SGI)는 버리지만, 의미론적으로 변동하는 SGI는 유지합니다. 우리는 공정성 개선을 위해 설계된 ASR 알고리즘이 S3Ms에 SGI가 인코딩되는 정도를 변화시킨다는 것을 발견했습니다. 그러나 이는 주로 음성학적으로 변동하는 SGCs에 해당하며, 의미론적으로 변동하는 SGCs에는 덜 해당됩니다. 우리는 각 레이어(layer)에 의해 SGI가 어떻게 인코딩되는지 논의하고, 서로 다른 SGCs를 인코딩하는 데 책임이 있는 임베딩 (embeddings)의 하위 차원 (subdimensions)을 식별합니다. 마지막으로, 우리의 연구 결과가 어떻게 더 공정한 ASR 알고리즘을 설계하는 데 유익할 수 있는지 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기지도 학습 음성 인식 모델에서의 화자 그룹 인코딩

요약

핵심 포인트

댓글