HATS: 인간 지각을 통합한 자동 음성 인식 평가 지표 평가용 오픈 데이터셋

일반적으로, 자동 음성 인식 (ASR) 시스템은 음성 신호에 포함된 각 단어를 올바르게 인식하는 능력에 따라 평가됩니다. 이 맥락에서 단어 오류율 (WER) 지표는 음성 전사 평가를 위한 기준입니다. 여러 연구가 이 측정치가 ASR 시스템을 올바르게 평가하기에는 너무 제한적임을 보여 왔으며, 이에 따라 가중치 WER, BERTscore, 의미 거리 등 다른 변형 지표들이 제안되었습니다. 그러나 이러한 지표들은 여전히 시스템 중심이며, 전사가 인간을 위해 의도되어 있더라도 마찬가지입니다. 본 논문에서는 최초로 인간 지각에 따른 다양한 ASR 시스템이 생성한 전사 오류의 평가 측면에서 독창적인 프랑스어 수동 주석 데이터셋인 Human Assessed Transcription Side-by-side (HATS)를 제시합니다. 143 명의 인간에게 두 가지 가설 중 가장 좋은 자동 전사를 선택하도록 요청했습니다. 우리는 인간의 선호도와 다양한 ASR 평가 지표, 즉 어휘 기반 및 임베딩 기반 지표 사이의 관계를 조사했으며, 후자는 supposedly 인간 지각과 가장 잘 상관이 있는 지표들입니다.

Insights

HATS: 인간 지각을 통합한 자동 음성 인식 평가 지표 평가용 오픈 데이터셋

요약

핵심 포인트

댓글

숨겨진 프롬프트 인젝션 (Hidden Prompt Injection): 브라우저 에이전트 해킹 및 방어 체계 테스트

안전한 에이전트 롤백 전략이 "Kubernetes를 건드리지 않는 것"이라고 생각했는데, OpenClaw + Argo CD 설정을 보고 생각이

인도 내 AI 채용, 전체 IT 채용 속도 추월: 산업 전략의 변화

설계서 1장으로 구현·리뷰·PR까지 — Claude Code로 오케스트레이터 Skill 만들기

안전한 에이전트 롤백 전략이 "Kubernetes를 건드리지 않는 것"이라고 생각했는데, OpenClaw + Argo CD 설정을 보고 생각이

인도 내 AI 채용, 전체 IT 채용 속도 추월: 산업 전략의 변화

설계서 1장으로 구현·리뷰·PR까지 — Claude Code로 오케스트레이터 Skill 만들기