실시간 음성 AI는 듣지만 경청하지는 않는다
요약
OpenAI, Google, Alibaba의 실시간 음성 AI 모델들을 평가한 결과, 시스템들이 음성의 어조나 감정을 무시하고 텍스트 정보에만 의존하는 '정서적 지능 격차'를 발견했습니다. 모델들은 감정을 인지할 수 있음에도 불구하고 실제 의사결정 과정에서는 음향적 특성을 반영하지 못하는 한계를 보였습니다.
핵심 포인트
- 실시간 음성 AI가 음성의 어조보다 텍스트 내용에 편향되어 행동함
- 감정(고통, 공포, 비꼬는 말투)을 인지하면서도 의사결정에는 반영 못 함
- 음성 전달 방식에 대한 프롬프팅만으로는 성능 개선이 제한적임
- 음성 AI가 음성을 단순 텍스트 전사로 취급하는 경향이 있음
음성은 단어와 목소리의 전달 방식(vocal delivery) 모두를 통해 정보를 전달합니다. 우리는 단어와 전달 패턴 모두가 의미 있는 정보를 전달하는 작업에서 네 가지 주요 상용 실시간 음성 시스템—OpenAI의 GPT Realtime 2, Google의 Gemini 3.1 Flash Live, 그리고 Alibaba의 Qwen3.5 Omni Plus 및 Omni Flash—을 평가했습니다. 세 가지 중대한 시나리오 전반에 걸쳐, 네 시스템 모두 목소리가 아닌 단어에 따라 행동했습니다. 이들은 아무 문제가 없다고 주장하며 울고 있는 통화자에게 전화를 종료하고, 겁에 질린 목소리로 승인된 계좌 이체를 허용하며, 동의의 내용이 명백히 비꼬는 말투인 통화자를 등록합니다. 놀랍게도, 이는 종종 인지(perception)의 실패가 아닙니다. 직접적으로 질문했을 때, 네 시스템 중 세 곳은 나중에 의사결정을 내릴 때 무시했던 고통, 공포 또는 비꼬는 태도를 신뢰성 있게 식별해 냈습니다. 이러한 실시간 음성 시스템이 억양과 연령을 추정할 때도 유사한 패턴이 관찰되는데, 이들의 응답은 화자의 음향적 특성(acoustic properties)보다는 단어의 편향을 따르는 경우가 빈번하기 때문입니다. 우리는 인지와 행동 사이의 이러한 단절을 음성 AI의 정서적 지능 격차(emotional intelligence gap)라고 명명합니다. 시스템에 음성 전달 방식에 명시적으로 주의를 기울이도록 프롬프팅(Prompting)하는 것은 성능을 부분적으로만, 그리고 일관성 없게 개선할 뿐입니다. 우리의 연구 결과는 현재의 실시간 음성 AI 시스템이 마치 음성이 텍스트 전사(transcript)로 축소된 것처럼 행동하는 경우가 많음을 보여주며, 이는 전달의 어조와 감정이 중요한 정보를 담고 있는 환경에서 이러한 시스템을 사용할 때 주의가 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기