arXiv논문2026. 05. 27. 12:03

FalAR: 의회 세션의 대규모 화자 주석 유럽 포르투갈어 음성 코퍼스

요약

유럽 포르투갈어(EP)의 데이터 부족 문제를 해결하기 위해 의회 세션 음성 데이터를 활용한 대규모 화자 주석 코퍼스 FalAR를 제안합니다. 5,800시간의 음성 데이터와 화자 메타데이터를 포함하며, ASR 모델 성능을 크게 향상시킵니다.

핵심 포인트

5,800시간 규모의 유럽 포르투갈어 음성 코퍼스 FalAR 공개
화자 식별 및 연령, 성별, 정당 등 상세 메타데이터 포함
CAMÕES ASR 모델을 활용한 전사-참조 정렬 구축
사전 학습 시 베이스라인 대비 WER 최대 14% 개선 입증

자동 음성 인식 (ASR)의 최첨단 성능은 대규모 레이블링된 코퍼스 (labeled corpora)의 가용성에 크게 의존합니다. 이는 특히 과소 대표되는 언어와 방언 변이체에 대해 데이터 수집 노력의 증가를 요구합니다. 유럽 포르투갈어 (EP)는 화자 수가 상당히 적기 때문에 (약 1,100만 명), 현재 사용 가능한 대규모 음성 데이터 리소스에서 브라질 포르투갈어 (BP) (약 2억 명의 화자)에 의해 가려져 있으며, 이로 인해 EP 사용자들을 위한 음성 기반 시스템의 성능 저하를 초래하고 있습니다. 이러한 격차를 해소하기 위해, 다른 언어들에 대한 유사한 데이터 수집 노력을 따라, 우리는 유럽 포르투갈어 의회 세션의 대규모 화자 주석 음성 코퍼스인 FalAR를 선보입니다. 약 20년에 걸친 FalAR는 5,800시간의 음성 데이터로 구성됩니다. 또한, 4,850시간에는 화자 식별 주석이 포함되어 있으며, 연령, 성별, 정당 소속 및 의회 역할을 포함한 메타데이터가 연결된 총 1,180명의 화자가 포함되어 있습니다. 이 코퍼스는 전사-참조 정렬 (transcription-reference alignment)을 위해 최첨단 EP CAMÕES ASR 모델을 사용하여 구축되었습니다. 본 논문에서는 FalAR 코퍼스의 주요 특징과 함께 데이터 수집 과정을 설명합니다. 나아가, 우리는 ASR 성능에 있어 데이터 양과 정렬 정확도 사이의 트레이드오프 (trade-off)를 평가하며, 실험을 통해 FalAR를 사전 학습 (pre-training) 데이터로 통합하는 것이 베이스라인 모델 대비 최대 14%의 상대적 단어 오류율 (WER) 개선을 가져온다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FalAR: 의회 세션의 대규모 화자 주석 유럽 포르투갈어 음성 코퍼스

요약

핵심 포인트

댓글