StarDrinks: 음료 주문 시나리오를 위한 영어 및 한국어 SLU 평가용 테스트 세트
요약
StarDrinks는 LLM과 음성 비서가 복잡한 사용자 요청을 처리하는 능력을 평가하기 위해 설계된 영어 및 한국어 테스트 세트입니다. 이 데이터셋은 단순한 통제 시나리오의 한계를 넘어, 실제 사용 환경에서 발생하는 다양한 명칭 개체, 커스터마이징, 그리고 주저함 같은 자발적 화용 현상을 포착합니다. StarDrinks는 음성-슬롯(SLU), 전사-슬롯(NLU), 음성-전사(ASR) 등 다각적인 평가를 지원하여 모델의 견고성과 일반화 능력을 검증하는 현실적인 벤치마크를 제공합니다.
핵심 포인트
- StarDrinks는 LLM 및 음성 비서의 실제 사용자 요청 처리 능력을 평가하기 위한 영어/한국어 테스트 세트이다.
- 이 데이터셋은 단순한 통제 시나리오가 아닌, 주저함이나 자기 수정 같은 자발적 화용 현상까지 포함하여 현실성을 높였다.
- StarDrinks는 음성-슬롯(SLU), 전사-슬롯(NLU), 음성-전사(ASR) 등 다중 모달리티 및 태스크 평가를 지원한다.
- 이 벤치마크는 모델의 견고성과 일반화 능력을 검증하는 데 초점을 맞추고 있다.
LLM 과 음성 비서는 점점 더 많은 목적 지향적 상호작용에 사용되고 있지만, 그 평가는 종종 실제 사용자 요청의 다양성과 복잡성을 포착하지 못하는 통제된 시나리오에 의존합니다. 예를 들어, 음료 주문은 다양한 명칭 개체, 음료 종류, 사이즈, 커스터마이징 및 브랜드별 전문 용어를 포함할 뿐만 아니라, 주저함이나 자기 수정과 같은 자발적 화용 현상을 포함합니다. 이 격차를 해소하기 위해 우리는 StarDrinks 를 소개합니다. 이는 음성 발화 (speech utterances) 특징, 전사 (transcriptions), 그리고 주석 처리된 슬롯 (annotated slots) 을 포함하는 영어와 한국어 테스트 세트입니다. 우리의 데이터셋은 음성에서 슬롯으로의 SLU, 전사에서 슬롯으로의 NLU, 그리고 음성에서 전사로의 ASR 평가를 지원하여 언어적으로 풍부하고 실제적인 작업에서 모델의 견고성과 일반화를 위한 현실적인 벤치마크를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기