arXiv논문2026. 06. 23. 11:41

CORTIS: 작업 지향형 음성 에이전트를 위한 음성 언어 모델(SLM)의 텍스트 전용 적응 방식

요약

CORTIS는 음성-타겟 쌍 데이터 없이 텍스트 기반 감독만으로 음성 언어 모델(SLM)을 미세 조정하는 프레임워크입니다. 소음 환경에서 ASR-LLM 캐스케이드 방식보다 작업 의미론을 더 잘 보존하며, 비용 효율적인 음성 에이전트 적응 전략을 제시합니다.

핵심 포인트

텍스트 전용 적응을 통해 음성-타겟 쌍 데이터 수집 비용 절감
소음 환경에서 ASR 전사 오류가 하위 단계로 전파되는 문제 해결
Qwen2.5-Omni 백본을 활용한 작업 지향형 음성 에이전트 성능 입증
음향 저하 상황에서도 높은 수준의 작업 의미론 보존 가능

작업 지향형(Task-oriented) 음성 에이전트는 사용자의 음성 요청을 의미 프레임(semantic frames), 실행 가능한 동작(executable actions), 함수 호출(function calls)과 같은 구조화된 출력(structured outputs)으로 매핑해야 합니다. 일반적인 접근 방식은 자동 음성 인식(ASR)을 텍스트 기반의 대규모 언어 모델(LLM)과 직렬로 연결(cascade)하는 것이지만, 특히 소음이 있는 환경에서는 전사 오류(transcription errors)가 하위 단계의 구조화된 출력 생성 과정으로 전파될 수 있습니다. 음성 언어 모델(Spoken Language Models, SLMs)은 직접적인 음성 기반의 대안을 제공하지만, 이를 새로운 작업에 적응시키려면 일반적으로 음성과 타겟 데이터가 쌍을 이룬(paired speech-target) 주석(annotations)이 필요합니다. 이러한 격차에 착안하여, 우리는 작업 지향형 음성 에이전트를 위한 텍스트 전용 적응 프레임워크인 CORTIS를 제안합니다. CORTIS는 텍스트 형태의 작업 감독(task supervision)을 사용하여 SLM을 미세 조정(fine-tuning)하며, 이를 통해 적응 과정에서 작업별 음성-타겟 주석 없이도 추론 시점에 음성 기반의 구조화된 출력 생성을 가능하게 합니다. 우리는 두 개의 Qwen2.5-Omni 백본(backbones)과 자체 제작한 제품 데이터셋을 포함한 세 개의 작업 지향형 음성 데이터셋을 통해 CORTIS를 평가하였으며, 동일한 텍스트 형태의 작업 감독으로 학습된 매칭된 ASR-LLM 캐스케이드(cascades)와 비교하였습니다. 결과에 따르면 CORTIS는 매칭된 캐스케이드와 경쟁력 있는 성능을 보였으며, 특히 음향 저하(acoustic degradation) 상황에서 고수준의 작업 의미론(task semantics)을 보존하는 데 있어 더 명확한 이점을 제공합니다. 이러한 발견은 쌍을 이룬 음성-타겟 데이터를 수집하는 비용이 높을 때, SLM의 텍스트 전용 미세 조정이 음성 에이전트를 위한 실용적인 적응 전략이 될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CORTIS: 작업 지향형 음성 에이전트를 위한 음성 언어 모델(SLM)의 텍스트 전용 적응 방식

요약

핵심 포인트

댓글