arXiv논문2026. 06. 15. 08:24

음소 기반 자동 음성 인식 시스템의 편향성 평가: IPA 전사 모델 분석

요약

본 연구는 음소(phoneme) 기반 자동 음성 인식(ASR) 시스템인 WhisperIPA와 ZIPA의 인구통계학적 편향성을 평가합니다. 인종, 연령, 성별, 억양에 따른 성능 격차를 분석하여 더욱 포용적인 음성 인식 모델 개발을 위한 통찰을 제공합니다.

핵심 포인트

IPA 기반 ASR 시스템의 인구통계학적 편향성 조사
WhisperIPA 및 ZIPA 모델의 성능 비교 분석
표준 PER 및 Soft PER 지표를 활용한 평가 수행
언어, 성별, 억양 등에 따른 지속적인 성능 격차 확인

자동 음성 인식 (ASR) 시스템의 대중화로 인해, 불균형한 학습 데이터로 인해 발생하는 인종, 연령, 성별 및 억양과 관련된 인구통계학적 편향 (demographic biases)에 대한 탐구가 증가했습니다. 이러한 연구의 대부분은 표준 자음-모음 (grapheme) 기반 ASR 시스템에 집중되어 왔으며, 국제 음성 기호 (IPA) 표현을 생성하는 모델과 같은 음소 (phoneme) 기반 시스템에 대한 강조는 상대적으로 적었습니다. ASR 시스템이 다국어 지원 및 저자원 언어 모델링 (low-resource language modeling)으로 전환됨에 따라, IPA 기반 레이어는 언어에 구애받지 않는 (language-agnostic) 중요한 토대로 기능합니다. 본 연구에서는 다양한 억양과 언어 소스에 걸쳐 IPA 전사를 생성하는 두 가지 최첨단 오픈 소스 ASR 시스템인 WhisperIPA와 ZIPA의 성능을 평가합니다. 우리의 평가는 기존의 다국어 음성 코퍼스 (speech corpora) 및 인구통계학적으로 주석이 달린 영어 코퍼스를 포함합니다. 우리는 표준 음소 오류율 (PER)과 언어적으로 유사한 음소 치환을 허용하는 제안된 Soft PER 지표를 모두 사용하여, 모델이 생성한 IPA 전사를 자음-모음-음소 (G2P) 시스템과 비교함으로써 모델 성능을 측정합니다. 우리의 분석은 성능이 언어와 성별, 억양, 민족 및 연령과 같은 인구통계학적 그룹에 따라 어떻게 달라지는지 조사하며, 허용 가능한 음소 변이를 고려한 후에도 지속적인 격차가 있음을 밝혀냅니다. 이러한 발견은 잠재적인 편향의 원인에 대한 통찰력을 제공하며, 더욱 포용적이고 언어적으로 견고한 음소 기반 ASR 시스템의 개발에 정보를 제공합니다. 우리의 코드와 데이터는 커뮤니티에 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

음소 기반 자동 음성 인식 시스템의 편향성 평가: IPA 전사 모델 분석

요약

핵심 포인트

댓글