본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 15:33

AppTek 콜센터 대화: 영어 ASR 를 위한 다중 방언 장문 벤치마크

요약

본 연구는 대화형 AI 응용 프로그램의 영어 ASR 시스템 평가에 필요한 자발적이고 역할극 기반의 다중 방언 장문 코퍼스인 'AppTek 콜센터 대화' 데이터셋을 제시합니다. 이 데이터셋은 14개 영어 방언과 16가지 서비스 지향 시나리오를 포함하며, 기존 공개 코퍼스와 중복될 위험이 적습니다. 벤치마크 결과는 ASR 시스템의 성능이 특정 방언이나 세그멘테이션 방법에 따라 크게 달라지며, 일반적인 미국 영어에서의 좋은 성능이 다른 방언에 반드시 일반화되지 않음을 보여줍니다.

핵심 포인트

  • 대화형 AI를 위한 영어 ASR 평가는 짧은 세그먼트나 준비된 발화 위주로 이루어져 있어 어려움이 있습니다.
  • 제시된 'AppTek 콜센터 대화' 코퍼스는 14개 방언과 16가지 서비스 시나리오를 포괄하는 자발적이고 역할극 기반의 실제 대화 데이터입니다.
  • 데이터셋은 평가 목적으로 의뢰되어 기존 대규모 사전 학습 코퍼스와 중복될 위험이 낮습니다.
  • ASR 시스템의 성능은 방언과 세그멘테이션 방식에 따라 큰 변동성을 보이므로, 일반화된 벤치마크가 필요합니다.

대화형 AI 응용 프로그램을 위한 영어 자동 음성 인식 (ASR) 시스템 평가는 여전히 어렵습니다. 이는 공개적으로 이용 가능한 많은 코퍼스가 짧은 세그먼트로 미리 분할되어 있거나, 읽거나 준비된 발화를 포함하거나, 다양한 사용자 기반에 대한 견고성을 평가하기 위해 명시적인 방언 주석이 부족하기 때문입니다. 본 연구에서는 AppTek 콜센터 대화 (Call-Center Dialogues) 코퍼스를 제시합니다. 이 코퍼스는 14 개 영어 방언을 아우르는 16 가지 서비스 지향 시나리오를 포괄하는 자발적이고 역할극 기반의 에이전트-고객 대화가 모인 것입니다. 이 데이터셋은 평가 목적으로 의뢰되었으며, 공개 이전에 오디오 또는 텍스트가 공개되지 않아 기존 대규모 사전 학습 코퍼스와 중복될 위험이 줄어듭니다. 우리는 다양한 세그멘테이션 접근법 하에서 오픈 소스 ASR 시스템의 일부를 벤치마크합니다. 결과는 방언과 세그멘테이션 방법에 따라 상당한 변이가 있음을 보여주며, 일반적인 미국 영어 벤치마크에서의 좋은 성능이 반드시 다른 방언에도 일반화되지 않음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0