AppTek 콜센터 대화: 영어 ASR 를 위한 다중 방언 장문 벤치마크

대화형 AI 응용 프로그램을 위한 영어 자동 음성 인식 (ASR) 시스템 평가는 여전히 어렵습니다. 이는 공개적으로 이용 가능한 많은 코퍼스가 짧은 세그먼트로 미리 분할되어 있거나, 읽거나 준비된 발화를 포함하거나, 다양한 사용자 기반에 대한 견고성을 평가하기 위해 명시적인 방언 주석이 부족하기 때문입니다. 본 연구에서는 AppTek 콜센터 대화 (Call-Center Dialogues) 코퍼스를 제시합니다. 이 코퍼스는 14 개 영어 방언을 아우르는 16 가지 서비스 지향 시나리오를 포괄하는 자발적이고 역할극 기반의 에이전트-고객 대화가 모인 것입니다. 이 데이터셋은 평가 목적으로 의뢰되었으며, 공개 이전에 오디오 또는 텍스트가 공개되지 않아 기존 대규모 사전 학습 코퍼스와 중복될 위험이 줄어듭니다. 우리는 다양한 세그멘테이션 접근법 하에서 오픈 소스 ASR 시스템의 일부를 벤치마크합니다. 결과는 방언과 세그멘테이션 방법에 따라 상당한 변이가 있음을 보여주며, 일반적인 미국 영어 벤치마크에서의 좋은 성능이 반드시 다른 방언에도 일반화되지 않음을 시사합니다.

Insights

AppTek 콜센터 대화: 영어 ASR 를 위한 다중 방언 장문 벤치마크

요약

핵심 포인트

댓글

왜 당신의 브랜드가 ChatGPT, Gemini, Claude에게 보이지 않을 수 있는가

LangChain의 Deep Agents에서 FilesystemBackend 이해하기

베일 뒤의 진실: AI 거물들이 가장 두려워하는 사적인 공포

【AI 에이전트 해부학: 제8회】 지능을 결집하는 조직론: Multi-Agent Collaboration의 협조 설계

LangChain의 Deep Agents에서 FilesystemBackend 이해하기

베일 뒤의 진실: AI 거물들이 가장 두려워하는 사적인 공포

【AI 에이전트 해부학: 제8회】 지능을 결집하는 조직론: Multi-Agent Collaboration의 협조 설계