CORTIS: 작업 지향형 음성 에이전트를 위한 음성 언어 모델(SLM)의 텍스트 전용 적응 방식
요약
CORTIS는 음성-타겟 쌍 데이터 없이 텍스트 기반 감독만으로 음성 언어 모델(SLM)을 미세 조정하는 프레임워크입니다. 소음 환경에서 ASR-LLM 캐스케이드 방식보다 작업 의미론을 더 잘 보존하며, 비용 효율적인 음성 에이전트 적응 전략을 제시합니다.
핵심 포인트
- 텍스트 전용 적응을 통해 음성-타겟 쌍 데이터 수집 비용 절감
- 소음 환경에서 ASR 전사 오류가 하위 단계로 전파되는 문제 해결
- Qwen2.5-Omni 백본을 활용한 작업 지향형 음성 에이전트 성능 입증
- 음향 저하 상황에서도 높은 수준의 작업 의미론 보존 가능
작업 지향형(Task-oriented) 음성 에이전트는 사용자의 음성 요청을 의미 프레임(semantic frames), 실행 가능한 동작(executable actions), 함수 호출(function calls)과 같은 구조화된 출력(structured outputs)으로 매핑해야 합니다. 일반적인 접근 방식은 자동 음성 인식(ASR)을 텍스트 기반의 대규모 언어 모델(LLM)과 직렬로 연결(cascade)하는 것이지만, 특히 소음이 있는 환경에서는 전사 오류(transcription errors)가 하위 단계의 구조화된 출력 생성 과정으로 전파될 수 있습니다. 음성 언어 모델(Spoken Language Models, SLMs)은 직접적인 음성 기반의 대안을 제공하지만, 이를 새로운 작업에 적응시키려면 일반적으로 음성과 타겟 데이터가 쌍을 이룬(paired speech-target) 주석(annotations)이 필요합니다. 이러한 격차에 착안하여, 우리는 작업 지향형 음성 에이전트를 위한 텍스트 전용 적응 프레임워크인 CORTIS를 제안합니다. CORTIS는 텍스트 형태의 작업 감독(task supervision)을 사용하여 SLM을 미세 조정(fine-tuning)하며, 이를 통해 적응 과정에서 작업별 음성-타겟 주석 없이도 추론 시점에 음성 기반의 구조화된 출력 생성을 가능하게 합니다. 우리는 두 개의 Qwen2.5-Omni 백본(backbones)과 자체 제작한 제품 데이터셋을 포함한 세 개의 작업 지향형 음성 데이터셋을 통해 CORTIS를 평가하였으며, 동일한 텍스트 형태의 작업 감독으로 학습된 매칭된 ASR-LLM 캐스케이드(cascades)와 비교하였습니다. 결과에 따르면 CORTIS는 매칭된 캐스케이드와 경쟁력 있는 성능을 보였으며, 특히 음향 저하(acoustic degradation) 상황에서 고수준의 작업 의미론(task semantics)을 보존하는 데 있어 더 명확한 이점을 제공합니다. 이러한 발견은 쌍을 이룬 음성-타겟 데이터를 수집하는 비용이 높을 때, SLM의 텍스트 전용 미세 조정이 음성 에이전트를 위한 실용적인 적응 전략이 될 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기