텍스트에서 음성으로: 도구 호출(Tool Calling) LLM 에이전트 평가를 위한 재현 가능하고 검증 가능한 프레임워크
요약
본 연구는 기존의 텍스트 기반 LLM 도구 호출 벤치마크를 데이터셋에 구애받지 않는(dataset-agnostic) 방식으로 오디오 기반 평가로 변환하는 프레임워크를 제안합니다. 이 프레임워크는 텍스트 음성 변환, 화자 변이, 환경 소음 등을 활용하여 기존 주석을 보존한 채 텍스트-오디오 쌍을 생성할 수 있습니다. 광범위한 모델 평가 결과, 성능은 모델과 작업에 따라 크게 달라지며, 특히 오디오 내 인자 값 이해 부족이 주요 실패 원인으로 분석되었습니다.
핵심 포인트
- 기존의 텍스트 기반 LLM 도구 호출 벤치마크를 재현 가능하고 검증 가능한 오디오 기반 평가로 확장하는 프레임워크를 제시했습니다.
- 제안된 프레임워크는 데이터셋에 구애받지 않으며, TTS, 화자 변이, 환경 소음 등을 활용하여 주석을 보존한 텍스트-오디오 인스턴스를 생성합니다.
- 다양한 모델(예: Gemini-3.1-Flash-Live, GPT-Realtime-1.5)을 평가한 결과, 성능 격차가 존재하며 오디오 내 인자 값 이해가 주요 난이도 요인임을 확인했습니다.
- 개인정보 보호를 위해 최소 8B 파라미터의 오픈 소스 LLM(Qwen3)이 폐쇄형 판독기와 높은 일치도를 보이는 평가 프로토콜을 제안합니다.
음성 에이전트는 점점 더 음성으로부터의 신뢰할 수 있는 도구 사용(tool use)을 요구하고 있지만, 저명한 도구 호출(tool-calling) 벤치마크들은 여전히 텍스트 기반으로 남아 있습니다. 본 연구에서는 도구 스키마(tool schema)와 정답 라벨(gold labels)을 다시 주석 처리(re-annotating)하지 않고도, 검증된 텍스트 벤치마크를 통제된 오디오 기반 도구 호출 평가로 변환할 수 있는지 연구합니다. 데이터셋에 구애받지 않는(dataset-agnostic) 우리의 프레임워크는 텍스트 음성 변환(text-to-speech), 화자 변이(speaker variation), 그리고 환경 소음(environmental noise)을 사용하여 기존 데이터셋의 주석을 보존하면서 쌍을 이루는 텍스트-오디오 인스턴스를 생성합니다. Confetti와 When2Call의 오디오 변환 버전에 대해 7개의 옴니모달(omni-modal) 모델을 광범위하게 평가한 결과, 우리의 프레임워크는 성능이 모델 및 작업에 따라 크게 달라짐을 보여줍니다. Gemini-3.1-Flash-Live는 가장 높은 Confetti 점수(70.4)를 얻은 반면, GPT-Realtime-1.5는 When2Call에서 가장 좋은 성능(71.9)을 보였습니다. Confetti에서 텍스트-음성 간의 격차(text-to-voice gap)는 Qwen3-Omni의 경우 1.8포인트에서 GPT-Realtime-1.5의 경우 4.8포인트까지 나타납니다. 실패 사례에 대한 표적 분석(targeted analysis)은 성능 저하가 음성 내 인자 값(argument values)에 대한 오해를 가장 자주 반영한다는 것을 보여줍니다. 실제 배포 시나리오를 고려하여, 우리는 텍스트 전용 결과, 모호성 기반의 재구성 스트레스 테스트(ambiguity-based reformulation stress test), 그리고 인간의 선호도에 대해 검증된 참조 없는 LLM-as-judge 프로토콜을 추가로 보고합니다. 특히, 우리는 최소 8B 파라미터를 가진 오픈 소스 Qwen3 판독기(judges)가 폐쇄형(proprietary) 판독기와 80% 이상의 일치도를 보인다는 것을 발견하였으며, 이는 개인정보를 보호하는 평가를 지원합니다. 전반적으로, 우리의 프레임워크는 목적에 맞게 구축된 오디오 코퍼스(audio corpora)를 보완하는, 검증 가능하고 재현 가능한 1단계 진단 도구를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기