arXiv논문2026. 06. 25. 12:22

Dziri Voicebot: 알제리 방언을 위한 엔드투엔드(End-to-End) 저자원 음성-대-음성(Speech-to-Speech) 대화

요약

알제리 방언과 같은 저자원 언어를 위한 엔드투엔드 음성-대-음성(Speech-to-Speech) 대화 시스템을 제안합니다. ASR, NLU, RAG, TTS를 통합한 모듈형 파이프라인을 통해 언어적 한계를 극복하고 통신 도메인에서의 성능을 입증했습니다.

핵심 포인트

알제리 방언을 위한 통합 음성-대-음성 대화 아키텍처 제안
Whisper 기반 ASR 및 트랜스포머 기반 NLU 모듈 활용
통신 도메인 특화 데이터셋 구축 및 모델 미세 조정 수행
저자원 언어 환경에서의 재현 가능한 베이스라인 제공

자동 음성 및 언어 기술은 여전히 고자원 언어(high-resource languages)에 크게 편향되어 있어, 알제리 방언(Algerian Dialect)과 같은 방언 및 저자원(low-resource) 환경에서의 적용 가능성을 제한하고 있습니다. 이 언어는 표준화된 철자의 부재, 프랑스어와의 빈번한 코드 스위칭(codeswitching), 주석이 달린 음성 자원의 부족 등 추가적인 과제를 안고 있습니다. 본 논문은 알제리 방언을 위한 완전한 음성-대-음성(speech-to-speech) 대화 시스템 구축 문제를 다룹니다. 우리는 자동 음성 인식(ASR), 자연어 이해(NLU), 검색 증강 생성(RAG), 그리고 텍스트-대-음성(TTS) 합성을 통합된 아키텍처 내에서 통합하는 모듈형 파이프라인을 제안합니다. 본 연구는 알제리 방언 대화 시스템에 관한 우리의 이전 연구인 Bechiri와 Lanasri [2026]의 연장선상에 있으며, 이를 텍스트 기반 대화 모델링에서 완전한 음성 기반 상호작용으로 확장합니다. 우리는 통신(telecom) 도메인을 위한 ASR, NLU 및 TTS 전용 데이터셋을 구축하였으며, 각 구성 요소에 대해 사전 학습된 모델을 미세 조정(fine-tune)하였습니다. ASR 시스템은 Whisper 기반 적응(adaptation)을 바탕으로 구축되었으며, NLU 모듈은 트랜스포머(transformer) 기반 임베딩과 작업 지향적 대화(task-oriented dialogue) 프레임워크를 결합합니다. 신경망 TTS 시스템은 음성 응답 생성을 가능하게 하기 위해 새로 수집된 방언 코퍼스(corpus)를 통해 학습되었습니다. 실험 결과, ASR의 낮은 단어 오류율(word error rate), NLU의 높은 의도 분류(intent classification) 및 개체명 인식(entity recognition) 점수, 그리고 안정적인 음성 합성 품질을 포함하여 모든 구성 요소에서 강력한 성능을 보여주었습니다. 제안된 시스템은 알제리 방언의 엔드투엔드(end-to-end) 대화 모델링을 위한 재현 가능한 베이스라인을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Dziri Voicebot: 알제리 방언을 위한 엔드투엔드(End-to-End) 저자원 음성-대-음성(Speech-to-Speech) 대화

요약

핵심 포인트

댓글