HATS: 인간 지각을 통합한 자동 음성 인식 평가 지표 평가용 오픈 데이터셋
요약
본 논문은 기존의 단어 오류율(WER) 같은 시스템 중심의 평가 지표가 ASR 성능을 충분히 반영하지 못한다는 문제점을 지적합니다. 이에 따라, 인간의 실제 인지 및 선호도를 통합하여 ASR 전사를 평가하는 새로운 오픈 데이터셋인 HATS(Human Assessed Transcription Side-by-side)를 프랑스어 수동 주석으로 제시했습니다. 연구는 이 데이터셋을 활용하여 인간의 선호도와 다양한 자동 평가 지표들 간의 상관관계를 분석합니다.
핵심 포인트
- 기존 ASR 평가 지표(WER 등)는 시스템 중심적이며, 인간의 실제 인지 및 이해도를 반영하기에 한계가 있다.
- HATS 데이터셋은 143명의 인간이 두 가지 가설 중 더 나은 자동 전사를 선택하도록 하여 '인간 지각'을 평가 기준으로 삼는다.
- 제시된 연구는 인간의 선호도와 어휘 기반 및 임베딩 기반의 다양한 ASR 평가 지표들 간의 상관관계를 조사한다.
- 임베딩 기반 지표들이 인간 지각과 가장 높은 상관관계를 가질 것으로 기대된다.
일반적으로, 자동 음성 인식 (ASR) 시스템은 음성 신호에 포함된 각 단어를 올바르게 인식하는 능력에 따라 평가됩니다. 이 맥락에서 단어 오류율 (WER) 지표는 음성 전사 평가를 위한 기준입니다. 여러 연구가 이 측정치가 ASR 시스템을 올바르게 평가하기에는 너무 제한적임을 보여 왔으며, 이에 따라 가중치 WER, BERTscore, 의미 거리 등 다른 변형 지표들이 제안되었습니다. 그러나 이러한 지표들은 여전히 시스템 중심이며, 전사가 인간을 위해 의도되어 있더라도 마찬가지입니다. 본 논문에서는 최초로 인간 지각에 따른 다양한 ASR 시스템이 생성한 전사 오류의 평가 측면에서 독창적인 프랑스어 수동 주석 데이터셋인 Human Assessed Transcription Side-by-side (HATS)를 제시합니다. 143 명의 인간에게 두 가지 가설 중 가장 좋은 자동 전사를 선택하도록 요청했습니다. 우리는 인간의 선호도와 다양한 ASR 평가 지표, 즉 어휘 기반 및 임베딩 기반 지표 사이의 관계를 조사했으며, 후자는 supposedly 인간 지각과 가장 잘 상관이 있는 지표들입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기