음성 에이전트가 이중 언어 사용자를 처리할 수 있을까? 코드 스위칭 (Code-Switched) 음성에 대한 프런티어 ASR 벤치마킹

세계 인구의 절반 이상이 두 개 이상의 언어를 사용합니다. 그리고 많은 이중 언어 사용자들에게 코드 스위칭 (Code-switching) — 문장 중간에서도 언어를 매끄럽게 전환하는 것 — 은 일상적인 의사소통의 자연스러운 부분입니다. 일상적인 대화든, 컨택 센터(Contact Center)든, 또는 IT 헬프데스크(IT Helpdesk)든, 화자들은 그 순간 가장 자연스럽게 느껴지는 언어에 유연하게 적응합니다.

전 세계적으로 이중 언어 사용자가 만연함에도 불구하고, 기업 환경에서 음성 에이전트가 코드 스위칭 (Code-switched) 음성을 어떻게 처리하는지에 초점을 맞춘 연구는 거의 없었습니다. 그래서 한 고객이 일상적으로 코드 스위칭을 하는 자신들의 주로 이중 언어를 사용하는 고객층을 대상으로 우리 음성 에이전트가 어떻게 성능을 발휘할지 물었을 때, 우리는 모델을 평가하기 위한 자체적인 벤치마크와 데이터셋을 구축하기로 결정했습니다. 우리는 모든 음성 에이전트 파이프라인 (Pipeline)의 첫 번째 단계인 자동 음성 인식 (ASR, Automatic Speech Recognition)에 집중했습니다. 전사 (Transcription) 오류는 모든 다운스트림 (Downstream) 구성 요소로 전파되기 때문입니다. 잘못 전달된 티켓이나 오해된 정책 질문이 실제 운영상의 결과를 초래하는 기업 환경에서는, 전사 내용을 정확하게 얻는 것이 음성 에이전트 파이프라인의 특히 중요한 단계입니다.

우리의 벤치마크는 고객층에게 가장 관련성이 높은 네 가지 언어 쌍을 다룹니다: 스페인어-영어, 프랑스어-영어, 캐나다 프랑스어-영어, 그리고 독일어-영어입니다. 이 벤치마크는 영어가 아닌 언어를 매트릭스 프레임 (Matrix framing)으로 사용하며, 영어가 다양한 길이로 삽입됩니다. 데이터는 복리후생이나 급여에 대한 직원 문의, 그리고 비밀번호 재설정, VPN 접속 또는 장치 문제 해결과 같은 지원 요청을 포함하여 광범위한 인사 관리 (HR, Human Resources) 및 IT 서비스 관리 (ITSM, IT Service Management) 시나리오를 다룹니다. 다양한 모델의 성능을 측정하기 위해, 우리는 세 가지 지표를 보고합니다: 단어 오류율 (WER, Word Error Rate), 의미론적 단어 오류율 (SWER, Semantic Word Error Rate), 그리고 답변 오류율 (AER, Answer Error Rate)입니다. 우리는 (1) 전사에서의 모델의 정확한 정확도와 (2) 다운스트림 작업을 위해 발화의 의미를 보존하는 능력을 모두 포착하기 위해 이 지표들을 선택했습니다.

우리는 음성 모델을 평가하기 위한 하네스(harness)인 AU-Harness를 통해 벤치마크와 데이터를 공개합니다. 또한 일부 대규모 오디오 언어 모델 (LALMs), 프런티어 ASR, 그리고 오픈 소스 ASR을 포함한 7가지 ASR 시스템의 결과도 제공합니다. 우리의 주요 발견은 코드 스위칭 (Code-switching)의 비용이 테스트된 언어 쌍과 모델에 따라 다르다는 것입니다. ElevenLabs Scribe V2, Gemini 3 Flash, 그리고 Assembly AI Universal 3-Pro가 이 작업의 지표 전반에서 최상위 모델로 나타났습니다.

우리는 IT 지원 및 HR 상호작용으로 구성된 내부 코퍼스(corpus)에서 시작합니다. 각 코드 스위칭 발화를 생성하기 위해, 먼저 영어와 4가지 비영어 언어 중 하나로 된 병렬 사용자 발화를 준비한 다음, 양질의 코드 스위칭 후보를 필터링합니다. 우리는 12단어에서 40단어 사이의 발화를 유지하는데, 이는 자연스러운 구어체 발화가 될 만큼 충분히 짧으면서도 실제 스위칭 기회를 포함할 만큼 충분히 길기 때문입니다. 또한 엔티티(entities)가 지배적인 발화, 즉 이중 언어 선택이 아닌 필연성에 의해 텍스트의 절반이 영어가 되어버리는 이메일, 전화번호, ID 또는 URL이 포함된 발화는 제외합니다. 마지막으로, 생성 모델이 의미 있는 코드 스위칭 버전을 생성할 수 있도록 충분한 재료를 제공하기 위해 엔티티나 제품명이 아닌 명사, 동사 또는 형용사와 같은 전환 가능한 내용어(content words)를 최소 3개 이상 요구합니다.

여기서부터 우리는 언어를 현실적인 방식으로 결합하기 위한 다양한 전략을 테스트했으며, 최종적으로 LLM (OpenAI/GPT-5)에 전달되는 단순한 페르소나 프롬프트(persona prompt)를 선택하여 코드 스위칭 텍스트를 생성했습니다. 그런 다음 LLM 구어화(verbalization) 단계를 사용하여 텍스트를 음성 형태로 변환하고, ElevenLabs Multilingual V2를 사용하여 오디오를 합성했습니다. 모든 발화는 매트릭스 언어 (matrix language)의 원어민인 AI/NLP 언어학자에 의해 검토되며, 플래그(flagged)가 지정된 발화는 제외되거나 재생성되어 재검토됩니다. 최종 데이터셋은 스페인어-영어 레코드 259개, 프랑스어-영어 레코드 298개, 캐나다 프랑스어-영어 레코드 188개, 그리고 독일어-영어 레코드 173개로 구성됩니다.

우리는 전사 정확도(transcription accuracy), 의미 보존(meaning preservation), 그리고 다운스트림 태스크 성능(downstream task performance)을 포착하기 위해 선택된, 언어 쌍당 모델별 세 가지 지표를 보고합니다.

단어 오류율 (Word Error Rate, WER). 언어 쌍별 전체 WER과 함께, 개별 언어별 WER을 보고합니다. 의미론적 단어 오류율 (Semantic WER, SWER). 이 점수는 의미론적으로 유의미하다고 판단되는 오류의 비율을 나타냅니다. 우리의 구현은 주로 Pipecat의 STT 벤치마크를 기반으로 하며, 판독 모델(judge)로 Gemma-4-31B를 사용합니다. 답변 오류율 (Answer Error Rate, AER). 이 지표는 전사 오류가 다운스트림 실패로 이어지는지 여부를 직접적으로 포착합니다. 이는 Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456)의 방법론을 따르는 질의응답(question-answer) 지표입니다. 각 발화(utterance)에 대해 세 개의 다운스트림 이해 질문을 생성하고, ASR 전사본을 읽는 LLM이 이를 올바르게 답변할 수 있는지 측정합니다. 흐름은 아래 다이어그램에 표시되어 있습니다.

우리는 다음 모델들을 평가했습니다:

AssemblyAI / Universal 3-Pro
Deepgram / Nova 3 Multilang
ElevenLabs / Scribe V2
Google / Gemini 3 Flash
Mistral AI / Voxtral Small 24B-2507
Nvidia / Parakeet TDT 0.6b V3
OpenAI / Whisper Large V3 Turbo

우리는 두 가지 차원에 따라 오류를 분석했습니다:

단어 수준 정확도 (Word-level accuracy): WER을 통해 측정됩니다. WER은 표준적인 접근 방식입니다. 이는 정답(ground truth) 전사본과 모델의 출력을 정렬하고 그 사이의 거리를 수치화합니다. 단순하고 널리 사용되지만, 사소한 철자 차이와 완전히 틀린 단어를 구분할 수 없다는 단점이 있습니다. 의미론적 정확도 (Semantic accuracy): SWER 및 AER을 통해 포착됩니다. SWER은 발화 수준의 성능에 대한 총체적인 관점을 제공하지만, 직접적인 다운스트림 테스트라기보다는 판독 모델(judge model)의 평가를 반영합니다. 반면, AER은 기능 테스트입니다. 각 발화에 대해 세 개의 이해 질문을 통해 사건 번호, 이름, 날짜, 요청 사유와 같이 가장 중요한 세부 사항들이 전사 과정에서 보존되었는지 측정합니다.

지표 간의 차이는 모델들이 각 지표에서 서로 다른 양상을 보일 때 가장 의미 있게 나타납니다.

ElevenLabs/Scribe V2와 AssemblyAI/Universal-3 Pro는 전사 정확도 (transcription accuracy) 측면에서 상위 두 모델입니다. 두 모델은 스페인어-영어 쌍에서는 동률을 기록했으며, 그 외의 모든 언어 쌍에서는 0.02~0.13 퍼센트 포인트 차이를 보였으며, Scribe가 각 쌍에서 근소한 차이로 앞서 나갔습니다.
Google/Gemini 3 Flash는 모든 언어 쌍에서 근소한 차이로 뒤를 이었으며, 캐나다 프랑스어-영어 쌍에서 가장 큰 격차를 보였습니다. 이 쌍에서 Gemini는 Scribe보다 0.14포인트, AssemblyAI보다 0.12포인트 뒤처졌습니다. Deepgram/Nova-3, Mistral/Voxtral, Nvidia/Parakeet은 중간 순위를 차지했으며, 각 모델은 최소 하나 이상의 언어 쌍에서 앞서 나갔습니다. Parakeet은 세 모델 중 전체적으로 가장 약세를 보였으나, 독일어-영어 쌍에서는 Nova-3와 Voxtral을 모두 능가하며 격차를 좁혔습니다.
OpenAI/Whisper Large V3 Turbo는 WER (Word Error Rate)이 0.16에서 0.61 사이로 나타나며 최하위에 머물렀습니다. 이는 상당한 하락이지만, Whisper의 알려진 한계를 반영합니다. 코드 스위칭 (code-switched) 오디오에 대해 명시적인 언어 파라미터 없이 호출될 경우, Whisper는 전사 (transcribing) 대신 영어로 번역하는 것을 기본값으로 설정하여 오디오에서 사용된 언어를 보존하는 데 실패합니다.

Scribe V2는 매우 낮은 SWER (Speaker Word Error Rate) 및 AER (Attribute Error Rate) 점수를 기록하며 1위를 유지했습니다.
AssemblyAI는 언어 쌍 전반에서 WER 기준 1위 또는 2위를 차지했으나, Gemini 3 Flash는 AER에서 일관되게 AssemblyAI를 능가하며 AssemblyAI를 3위로 밀어냈습니다. 동일한 패턴이 SWER에서도 나타났으나, 스페인어-영어 쌍에서는 AssemblyAI가 Gemini보다 우수한 성능을 보였습니다. LALM (Large Audio-Language Model)으로서 Gemini는 언어 이해 및 추론에 최적화되어 있으며, 이는 원시 전사 정확도가 떨어지는 경우에도 의미에 민감한 지표 (meaning-sensitive metrics)에서 이점을 제공하는 것으로 보입니다.
Whisper에서도 유사한 성능 변화가 관찰되었습니다. Whisper는 여전히 일관되게 최하위를 기록하고 있지만, 의미론적 지표 (semantic metrics) 하에서는 성능 저하 폭이 상당히 좁아졌습니다. 이는 코드 스위칭 오디오를 전사하기보다 영어로 번역하려는 Whisper의 경향성에서 비롯된 직접적인 결과입니다.

의미론적 결과 또한 SWER과 AER 사이의 주목할 만한 일관성을 보여줍니다. 두 지표는 서로 다른 입도(granularity)로 작동합니다. SWER은 모든 단어에 걸쳐 오류를 집계하는 반면, AER은 발화당 세 개의 이해 질문에 올바르게 답할 수 있는지를 측정하므로 규모의 차이는 예상된 결과입니다. 주목할 점은 두 지표 모두에서 모델 간의 상대적 순위가 얼마나 안정적인가 하는 것입니다. 명확한 예외는 Deepgram Nova-3로, SWER에서는 중간 단계에 위치하지만 모든 언어 쌍에서 AER 순위는 최하위 또는 최하위에서 두 번째를 기록했습니다. 이러한 격차는 스페인어-영어 조합에서 가장 두드러지게 나타납니다. Nova-3의 전반적인 의미론적 오류율은 가장 중요한 세부 사항에 대한 특정 오류율보다 낮습니다.

이러한 결과는 코드 스위칭(code-switched) 음성에 대한 모델별 상대적 성능을 명확하게 보여주지만, 오류가 전사(transcription) 자체의 내재적 어려움에서 기인한 것인지, 아니면 언어 전환으로 인해 발생하는 추가적인 도전 과제에서 기인한 것인지는 밝혀내지 못합니다.

코드 스위칭의 비용을 분리하여 측정하기 위해, 우리는 세 가지 오디오 상태로 모든 발화를 평가 파이프라인에 통과시켰습니다: 코드 스위칭 오디오, 동일한 내용의 단일 언어 매트릭스 언어(matrix-language) 오디오, 그리고 단일 언어 영어 오디오입니다. 각 발화에 대해 코드 스위칭 조건과 단일 언어 조건 사이의 WER 차이를 측정하고, 벤치마크 전체에 걸쳐 그 차이(delta)를 집계했습니다. 결과는 다음과 같습니다.

Scribe V2, Gemini 1.5 Flash, 그리고 AssemblyAI는 전반적으로 가장 작은 차이(delta)를 보여주었으며, 특히 Scribe V2는 자체 L2 베이스라인보다 눈에 띄게 우수한 성능을 보여 이중 언어 입력에 대한 진정한 강건성 (robustness)을 입증했습니다.
코드 스위칭 (code-switching)의 영향 또한 직관적인 패턴을 따릅니다. 상위 성능 모델들은 단일 언어 (monolingual) 베이스라인에 비해 아주 적은 페널티만을 입는 반면, 순위가 낮은 모델들은 훨씬 더 크게 성능이 저하됩니다. 이는 코드 스위칭이 모든 모델에 걸쳐 일률적으로 난이도를 높이기보다는, 주로 강건성 (robustness)의 차이를 드러낸다는 것을 시사합니다.
모든 언어 쌍에서 일관된 구조적 패턴이 나타납니다. 초록색 막대(영어 대비 비용)는 거의 항상 빨간색 막대(L2 대비 비용)보다 큰데, 이는 예상 가능한 결과입니다. 대부분의 모델에게 L2 베이스라인 자체가 영어보다 더 어렵기 때문에, L2를 기준으로 측정할 때 순수 스위칭 페널티는 더 작게 나타납니다. 가장 명확한 예외는 Whisper로, 영어 대비 가장 큰 성능 저하를 보였으며 독일어-영어 조합에서 +0.85로 정점을 찍었습니다. 또한 Whisper는 단일 언어 L2보다 코드 스위칭 음성에서 더 나은 성능을 보이는 유일한 모델인데, 이는 매트릭스 언어 (matrix language)를 완전히 건너뛰는 번역 (translation) 방식으로 기본 설정된 결과입니다.

코드 스위칭이 모델의 오류를 유발할 수 있다는 점을 확인했으므로, 이제 그러한 오류와 관련된 구체적인 조건들을 조사해 보겠습니다. 이 질문을 해결하기 위해 우리는 두 부분으로 구성된 모델을 적용했습니다:

첫째, 적어도 하나의 전사 (transcription) 오류가 발생하는 것과 연관된 변수가 무엇인지 묻기 위해 **로지스틱 회귀 (logistic regression)**를 사용합니다.
둘째, 적어도 하나의 오류가 발생하는 것을 조건으로 하여, 어떤 변수가 오류의 크기 (error magnitude)와 연관되어 있는지 조사하기 위해 **최소제곱법 (OLS) 회귀 (ordinary least squares regression)**를 사용합니다.

이러한 두 부분으로 구성된 접근 방식은 오류가 발생할 가능성을 높이는 요인과, 일단 오류가 발생했을 때 그 오류의 크기에 영향을 미치는 요인을 구분할 수 있게 해줍니다. 두 단계 모두 동일한 예측 변수 (predictors)를 포함합니다: (1) 발화 내의 언어 전환 횟수 (number of language switches), 그리고 (2) Gambäck과 Das의 정의를 따른 발화의 코드 혼합 지수 (Code-Mixing Index, CMI) — 즉, 모국어 (matrix language) 대비 보조 언어에서 추출된 단어의 비율입니다. 또한, 발화가 길수록 오류가 발생할 기회가 더 많아지기 때문에 **발화 길이 (utterance length)**를 통제 변수로 포함했습니다.

모델의 첫 번째 부분으로부터, 우리는 발화 내의 언어 전환 횟수가 전사 오류 (transcription error)의 발생 여부와 가장 일관되게 연관된 예측 변수라는 것을 발견했습니다. 각 언어의 변화는 전사 과정이 실패할 수 있는 추가적인 기회를 제공하는 것으로 보입니다. 이러한 관계는 특히 프랑스어-영어 언어 쌍에서 유의미하게 나타났으며, 7개의 모델 중 6개가 이를 보여주었습니다. 다른 예측 변수인 CMI와 발화 길이는 오류 발생과 유의미한 관계를 거의 보이지 않았습니다.

음성 에이전트가 이중 언어 사용자를 처리할 수 있을까? 코드 스위칭 (Code-Switched) 음성에 대한 프런티어 ASR 벤치마킹

요약

핵심 포인트

댓글