대화형 헝가리어 ASR 확장: BEA-Dialogue+ 코퍼스
요약
헝가리어 대화형 ASR 성능 향상을 위해 기존 85시간 규모의 BEA-Dialogue 코퍼스를 200시간으로 확장한 BEA-Dialogue+를 제안합니다. 화자 분리 기준을 완화하여 데이터 양을 늘렸으며, Whisper 및 FastConformer 모델을 통해 SOT 기반 미세 조정의 효과를 검증했습니다.
핵심 포인트
- BEA-Dialogue+를 통해 200시간의 헝가리어 대화 데이터 확보
- 화자 분리 기준 완화와 데이터 규모 간의 트레이드오프 연구 가능
- SOT 기반 미세 조정이 WER, CER 등 주요 지표에서 일관된 개선 확인
- 대화형 ASR 학습 및 평가를 위한 실질적인 벤치마크 제공
헝가리어의 대화형 자동 음성 인식 (ASR)은 공개적으로 사용 가능한 대화 스타일의 학습 데이터 양이 제한적이라는 제약을 받고 있습니다. BEA-Dialogue 코퍼스는 이러한 필요성을 해결하고자 하지만, 엄격하게 화자가 분리된 (speaker-disjoint) 학습/검증/평가 (train/dev/eval) 분할 방식 때문에 실제 사용 가능한 자료가 85시간에 불과합니다. 본 논문에서는 기본 화자들 간의 완전한 분리는 유지하면서, 실험자와 대화 상대방에 대한 분할 기준을 완화한 확장 버전 코퍼스인 BEA-Dialogue+를 소개합니다. 이를 통해 200시간 분량의 전사된 자연스러운 대화 데이터를 확보하였으며, 추가적인 학습 데이터와 분할 간의 화자 중첩 (speaker overlap) 사이의 트레이드오프 (trade-off)에 대한 통제된 연구를 가능하게 합니다. 우리는 두 코퍼스 버전 모두에서 Whisper 및 FastConformer 기반의 여러 모델을 평가하였으며, 여기에는 대화 전사를 위한 직렬화 출력 학습 (Serialized Output Training, SOT) 기반의 미세 조정 (fine-tuning)이 포함됩니다. 연구 결과, 더 큰 규모의 코퍼스는 미세 조정이 없는 모델에게는 더 도전적인 과제인 반면, SOT 기반의 적응 (adaptation)은 WER, CER, cpWER 및 cpCER에서 일관된 개선을 가져오는 것으로 나타났습니다. 종합적으로, BEA-Dialogue+는 헝가리어 대화형 ASR을 위한 실질적으로 더 크면서도 여전히 까다로운 벤치마크를 제공하며, 대화 전사 시스템을 학습하고 평가하기 위한 실용적인 자원이 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기