
이전의 소리를 듣고 응답하는 음성 AI──Inworld AI TTS-2의 설계와 해외 4개사의 활용법
요약
Inworld AI가 발표한 Realtime TTS-2는 단순 텍스트 입력을 넘어 이전 대화의 음성 이력(Audio History)을 컨텍스트로 활용하는 closed-loop형 음성 모델입니다. 이를 통해 사용자의 감정 상태나 말투를 파악하여 그에 어울리는 톤으로 응답할 수 있으며, 자연어 연기 지시를 통해 세밀한 발성 조절이 가능합니다.
핵심 포인트
- 멀티턴 음성 이력(Audio History)을 입력받아 대화의 맥락과 감정을 반영한 음성 생성 가능
- 자연어 연기 지시(Prompting)를 통해 세밀한 감정 및 발성 연출 지원
- 200ms 미만의 낮은 지연 시간과 100개 이상의 언어 지원
- Expressive, Balanced, Stable의 3가지 안정성 모드 제공
- STT, Router, TTS가 통합된 Realtime API 생태계 구축
최신 테크 활용 사례와 프로덕트 아이디어 #013
「Hello, how are you today?」라고 기계적으로 읽어 내려가는 TTS(Text-to-Speech)의 목소리는 누구나 한 번쯤 들어본 적이 있다. '사람이 아니다'라고 즉시 알 수 있는 이유는, TTS가 그 순간의 문자열만을 보고 소리를 만들기 때문이다. 이전 턴에서 상대방이 울 것 같은 목소리였는지, 혹은 짜증이 나 있었는지는 생성 측에 전달되지 않는다. 2026년 5월 5일에 Inworld AI가 발표한 「Realtime TTS-2」는 이 전제를 재구성했다. 텍스트가 아닌 멀티턴(Multi-turn)의 **생생한 음성 이력(Audio History)**을 입력으로 받는 closed-loop형 음성 모델이다. 본 기사에서는 그 설계, 해외 4개사에서의 사용 방식, 응용 시나리오를 차례로 살펴본다.
기존의 TTS를 함수로 쓰면 심플하다.
tts(text) -> audio
하나의 문자열을 고정된 목소리로 한 번 읽어준다. 대화의 전후 맥락은 호출 측의 애플리케이션이 관리하며, TTS 모델 자체는 '지금 자신이 누구와 대화하고 있는지'를 알지 못한다.
Inworld TTS-2는 이 부분을 근본적으로 바꾸었다. CSO(최고 과학 책임자)인 Igor Poletaev는 발표 당시 "대부분의 TTS는 대화와 분리된 상태에서 음성을 생성한다. TTS-2는 멀티턴 교환의 음성 컨텍스트를 사용하도록 훈련되어 있어, 상대방의 말하기 방식에 따라 발성 방식이 달라진다"라고 설명했다. 함수로 쓰면 다음과 유사한 형태가 된다.
tts2(text, audio_history) -> audio
audio_history에는 전사(Transcription)된 텍스트가 아니라, 파형(Waveform)에 가까운 표현이 들어간다. 톤, 목소리의 떨림, 휴지(Pause), 웃음소리──텍스트로 변환하는 순간 사라지는 정보를 모델이 직접 읽는다. 사용자가 "Okay, fine"이라고 말했을 때, 그것이 안도인지, 체념인지, 혹은 비꼬는 것인지를 모델 측에서 구분하여 톤을 맞춰 응답할 수 있다.
게다가 TTS-2는 자연어 '연기 지시'도 받아들인다. 프롬프트에 [speak tired but warm, like she just got home]과 같은 태그를 섞으면 그에 따라 발성한다. happy/sad/angry와 같은 고정된 라벨이 아니라, 디렉터(연출가)가 배우에게 내리는 세밀한 지시를 문장으로 전달하는 방식이다.
공개된 주요 사양 (Inworld 공식 블로그):
- 첫 음성 출력까지의 지연 시간(Time-to-first-audio): 중앙값으로 200밀리초(ms) 미만
- 대응 언어: 100개 이상, 대화 도중에 언어를 전환해도 목소리의 색깔은 유지됨
- 3가지 안정성 모드: Expressive(대화 AI용, 표현 중시) / Balanced(기본값) / Stable(IVR 등 업무용, 목소리의 흔들림을 억제)
- 제3자 벤치마크 Artificial Analysis Speech Arena에서 이전 세대인 TTS 1.5 Max가 1위를 차지하며, Google Gemini 3.1 Flash TTS와 ElevenLabs v3를 상회함
TTS-2는 단독으로 동작하는 모델이 아니라, Inworld Realtime API의 일부다. 해당 API는 3단계 구성으로 되어 있다.
- Realtime STT (
inworld/inworld-stt-1): 입력 음성을 전사함과 동시에 연령, 억양, 피치(Pitch), 음색, 감정과 같은 준언어적(Paralinguistic) 신호를 구조화된 신호로서 동일한 연결 상에서 반환함 - Realtime Router: OpenAI, Anthropic, Google, Groq, Mistral, xAI 등 수백 개의 LLM(Large Language Model) 중에서 용도에 따라 최적의 모델을 선택하여 호출함
- Realtime TTS-2: LLM의 응답 텍스트에 섞인
[sigh],[laugh],[speak softly]등의 인라인 지시와 음성 이력을 합쳐서 발성함
핵심은 STT가 포착한 준언어적 신호가 LLM의 컨텍스트로 흘러 들어가고, 그 정보를 바탕으로 TTS-2가 발성한다는 일관된(End-to-end) 설계다. Inworld 공식 발표에 따르면, 단일 WebSocket을 통해 end-to-end로 약 600밀리초(STT 200ms + LLM 400ms + TTS 180ms 병렬 처리), 총 1초 미만의 지연 시간을 공표하고 있다. 가격은 분당 0.015달러부터 시작한다.
개발자 관점에서 가치를 알기 쉬운 부분은 LiveKit Agents와의 통합이다. LiveKit은 WebRTC 기반의 음성 에이전트 개발 프레임워크로, Inworld 공식 플러그인이 pip/npm을 통해 제공되고 있다.
from livekit.agents import AgentSession
from livekit.plugins import inworld
# model="inworld-tts-2" 를 지정하는 것만으로 closed-loop 모델로 전환됨
...
LLM의 응답 텍스트에 [speak softly]와 같은 연기 태그나, [sigh]와 같은 비언어적 마커를 섞으면, TTS-2는 이를 해석하여 반영한다. 프롬프트 본문에 연출 지시가 직접 섞이는, 새로운 방식의 작성법이다.
WebRTC가 아닌 환경에서는 더욱 직관적인 동기식 API도 준비되어 있다. POST https://api.inworld.ai/tts/v1/voice로 voiceId, modelId, text를 보내는 것만으로 합성된 음성이 base64 형식으로 반환된다.
TTS-2의 윤곽은 경쟁 모델과의 대비를 통해 더 명확히 드러난다.
ElevenLabs는 '목소리의 수'와 '음질'로 승부해 왔다. 1만 종 이상의 프리셋 목소리, 성우 마켓플레이스, 더빙·효과음·음악 생성까지 갖춘, 콘텐츠 제작을 위한 종합 플랫폼에 가까운 설계다.
OpenAI는 2026년 5월 7일에 GPT-Realtime-2를 발표했다. GPT-5급의 추론을 음성에 통합한 모델로, Zillow가 가장 까다로운 사내 벤치마크에서 통화 성공률을 69%에서 95%로 26%포인트 끌어올렸다고 보고했다. 반면 가격은 입력 1M 토큰당 32달러, 출력 64달러로, Inworld의 분당 0.015달러보다 한 자릿수 이상 높다.
Hume AI는 EVI(Empathic Voice Interface)를 통해 '감정'을 일급 시민의 위치에 두었다. 음성 프로소디(Prosody)에서 약 48차원, 언어 감정에서 약 53차원이라는 다수의 감정 차원으로 응답을 변화시키는 설계지만, 목소리 톤 프롬프트만으로 충분한 많은 사례에서는 과하다는 평가를 받는다.
Inworld TTS-2는 이들과는 다른 위치에 있다. Router가 LLM의 선택지를 제한하지 않는 설계이기 때문에, ElevenLabs처럼 자사 모델만을 고집하거나 OpenAI처럼 자사 추론 세트를 묶어 판매하는 방식을 취하지 않는다. Inworld 자체 비교 자료에 따르면, ElevenLabs의 평균 1M 자당 요금과 비교했을 때 약 20배 저렴하다고 주장한다. 성우 마켓플레이스의 두께 면에서는 ElevenLabs에 뒤처지지만, '대화의 흐름에 맞춰 목소리를 바꾸는' 가치로 승부하는 구조로 만들어져 있다.
Talkpal (리투아니아 소재, 언어 학습 플랫폼) ── 80개 이상의 언어를 AI 교사와의 대화 연습으로 배우는 서비스로, 500만 명의 학습자를 보유하고 있다. Inworld TTS로의 전환을 1주일 이내에 완료했으며, 4주간의 A/B 테스트를 통해 'TTS 기반 비용 40% 절감, 기능 이용률 7% 증가, 사용자 유지율 4% 향상'을 기록했다. 공동 창업자(Co-Founder)인 Dimitri Dekanozishvili는 채택 이유를 '낮은 지연 시간(Low Latency), 고음질, 다국어 대응, 적정 가격'이라고 설명했다 (Inworld 공식 케이스 스터디).
LiveKit (미국, 실시간 음성 인프라) ── WebRTC 기반의 에이전트 개발 프레임워크를 제공한다. Inworld TTS-2가 공식 통합 중 하나로 포함되어 있으며, Vapi·Pipecat·NLX·Layercode·Voximplant과 같은 다른 에이전트 기반들도 유사한 대응을 진행하고 있다. 인프라 측이 Inworld를 '채택되는 쪽'으로 위치시키고 있는 구도다.
Ubisoft / Microsoft Xbox (프랑스·미국, 게임 업계) ── Ubisoft는 NVIDIA Audio2Face와 Inworld의 Character Engine을 사용하여 AI NPC인 'Neo NPC'를 구축하고 있다 (Tom's Hardware 보도, GDC 2024). Xbox는 다년간의 공동 개발 계약을 체결하고, 게임의 대화·스토리·퀘스트 설계를 지원하는 툴킷인 'Project Explora'를 추진 중이다. TTS-2의 closed-loop는 NPC가 '플레이어의 어조에 맞춰 응답하는' 경험을 한 단계 끌어올릴 것으로 기대된다.
로지텍 스트림랩스(Logitech Streamlabs) (미국, 방송 도구) ── CES 2025에서 NVIDIA와 공동으로 Inworld 기반 위에 '게임 플레이 중 실시간 실황 비서'를 구축하고 500밀리초 미만의 응답을 구현했습니다(Inworld 공식 엔터테인먼트 사례집). 소비자 대상 엔터테인먼트 분야에서는 Wishroll(19일 만에 100만 사용자)이나 Death by AI(2,000만 플레이어) 등에서도 Inworld 음성이 구동되고 있습니다.
참고로 TTS-2 자체는 2026년 5월 5일 출시되는 차세대 모델이며, 'TTS-2를 상용 운영하고 있다'고 명시적으로 발표한 채용 기업은 아직 적습니다. Inworld 음성 기반으로의 전환이 진행됨에 따라 위에 언급된 고객군들이 순차적으로 교체될 것으로 보입니다.
기반 사례: Talkpal이 '학습자의 말하는 방식을 청취하여 응답하는' 설계를 의료 영역에 이식합니다. Inworld 공식 헬스케어 자료에서는 HIPAA 대응, SOC 2 Type II, BAA(의료 정보 위탁 계약) 등에 대해 언급하고 있습니다.
발전 아이디어: 외래 진료 클리닉 예약/문진 챗봇에 closed-loop 음성 모델을 적용하여, 환자가 '가슴이 아파요'라고 말을 빠르게 하는 경우와 '지난번에도 말씀드렸는데요...'라며 힘없이 말하는 경우에 따라 되묻는 순서를 다르게 합니다. 통증의 강도나 불안 정도를 목소리 톤에서 포착하고, 응급도가 높은 증상(흉통+빠른 호흡, 현기증+불명확한 발음)을 감지하면 전문 간호사에게 즉시 에스컬레이션합니다. 텍스트 문진표로는 파악할 수 없는 '목소리에 담긴 중증도'를 1차 트리아지에 사용하는 것이 closed-loop 음성 모델이 아니면 성립하기 어려운 이유가 됩니다.
기반 사례: Telnyx (미국, 통신 API)가 'Inworld 기반 위에서 실제 엔터프라이즈 음성 에이전트를 구동하고 있는' 사례를 시작점으로 삼습니다. Gartner는 콜센터의 인건비가 대화 AI로 인해 2026년에 800억 달러 절감될 것으로 예측합니다.
발전 아이디어: 기존의 IVR(‘1번을 눌러주세요’ 방식)을 closed-loop 음성 에이전트로 대체합니다. OpenAI GPT-Realtime-2가 Zillow에서 달성한 '최난도 벤치마크 성공률 69% → 95%'와 같은 개선은 부동산 외의 산업(보험 사고 접수, 지방 자치 단체 거주민 창구, 은행 본인 확인)에서도 재현성이 높다고 생각됩니다. Inworld의 강점은 Router가 백엔드 LLM을 쉽게 교체할 수 있다는 점입니다. '금융 용도는 Anthropic, 의료 용도는 Google, 기본값은 OpenAI'와 같은 분리가 모델에 의존하지 않고 구성할 수 있습니다. Stable 모드를 선택하면 목소리의 떨림을 줄이고 업무적인 톤을 유지할 수 있습니다.
기반 사례: Talkpal이 언어 학습에서 구현한 '학습자별로 선생님의 말하는 방식을 맞추는' 발상을 대인 기술 훈련에 전개합니다.
발전 아이디어: 영업 역할극, 의사의 환자 대응 연습, 콜센터 신입 교육용으로 '연습 상대 AI가 훈련생의 말하는 방식에 따라 캐릭터를 전환하는' 제품을 만듭니다. 목소리를 높이는 고객 역할, 과묵하게 메모하는 상사 역할, 당황하는 환자 역할을 closed-loop로 훈련생의 응답에 반응시킵니다. 기존의 역할극 비디오 교재가 '미리 녹화된 정해진 대본'만 제공할 수 있는 반면, TTS-2는 '훈련생의 어조가 강하면 상대 AI도 반론을 강화하여 밀어붙이는' 동적인 부하를 만들 수 있습니다. 텍스트 기반 채팅 연습에서는 경험할 수 없는 체험입니다.
적합한 케이스: 에이전트가 상대방의 감정이나 말하는 방식 변화에 따라 목소리 톤을 바꿔야 하는 상황(콜센터, 코칭, 게임 NPC, 원격 의료). 장시간 대화에서 같은 목소리를 유지해야 하는 서비스.
부적합한 케이스: 순수한 내레이션/읽어주기(ElevenLabs가 음성 선택지가 압도적으로 많음), 극도로 낮은 지연의 임베디드 또는 온디바이스 추론(클라우드 API 전제), 성우 마켓을 활용한 상업 콘텐츠 제작(에코시스템이 약함).
윤리적 측면: closed-loop로 감정에 동기화하여 말하는 AI는 그만큼 설득력이 높고, 악용되었을 경우의 영향도 크다고 생각됩니다. EU AI Act는 2026년 8월 2일부터 AI 생성 음성에 대한 라벨링 의무화를 예정하고 있으며, Inworld 자체는 '제로 데이터 보유', '온프레미스 전개 가능'을 내세우지만, 이용 측에서 동의/녹음/본인 확인 플로우를 설계할 필요가 있습니다.
TTS 분야는 최근 몇 년 동안 목소리의 자연스러움으로 경쟁해 왔다. Inworld TTS-2가 보여준 것은 다음 경쟁 축이 '상대방의 말하는 방식에 맞춰 응답하는 설계'라는 것이다. 텍스트 AI가 '맥락(Context)'을 차지하기 위해 다퉜다면, 음성 AI는 '소리 그 자체의 맥락'을 두고 경쟁하는 단계에 접어들었다. 컨택트 센터, 헬스케어, 교육, 게임 등 인간을 상대하는 많은 업무에서 목소리의 온도 차이가 다음 차별화 요인이 될 것이다. 다음에 당신이 만들 제품 너머에 있는 사람은 AI에게 무엇을 '듣고(청취)' 받기를 원할까?
-
Inworld AI - Realtime TTS-2: A new frontier voice model https://inworld.ai/blog/realtime-tts-2
-
Inworld AI - Realtime API architecture https://inworld.ai/realtime-api
-
Inworld AI - Inworld vs ElevenLabs(20배 저렴하다는 주장의 출처) https://inworld.ai/resources/inworld-tts-1-5-max-vs-elevenlabs-multilingual-v2-greater-than-20x-cheaper-higher-quality
-
Inworld AI - Talkpal AI scales to 5 million language learners with Inworld TTS https://inworld.ai/blog/talkpal-ai-scales-to-5-million-language-learners-with-inworld-tts
-
Inworld AI - Best Voice AI for Enterprise Voice Agents(Telnyx・Strella 사례) https://inworld.ai/resources/best-voice-ai-for-enterprise-voice-agents
-
Inworld AI - Best Voice AI for Interactive Entertainment(NBCU・Sony・Logitech CES 2025 sub-500ms 사례) https://inworld.ai/resources/best-voice-ai-for-interactive-entertainment
-
Inworld AI - Voice AI for HIPAA-Aligned Patient Intake https://inworld.ai/resources/voice-ai-patient-intake
-
Inworld AI - Python TTS API Tutorial https://inworld.ai/resources/python-tts-api-tutorial
-
LiveKit Docs - Inworld TTS 플러그인(model=
-
BusinessWire - Inworld 보도 자료 (Realtime TTS-2 발표, Kylan Gibbs / Igor Poletaev 발언) https://www.businesswire.com/news/home/20260505096579/en/Inworld-Launches-New-Frontier-Voice-Model-That-Gives-AI-Agents-Contextual-Empathy
-
MarkTechPost - Inworld AI, Realtime TTS-2 출시: 폐쇄 루프 음성 모델 (A Closed-Loop Voice Model) https://www.marktechpost.com/2026/05/05/inworld-ai-launches-realtime-tts-2-a-closed-loop-voice-model-that-adapts-to-how-you-actually-talk/
-
AIThority - Inworld, 상황적 공감 능력을 갖춘 최첨단 음성 모델 출시 (Inworld Launches Frontier Voice Model with Contextual Empathy) https://aithority.com/cognitive-science/voice/inworld-launches-new-frontier-voice-model-that-gives-ai-agents-contextual-empathy/
-
TestingCatalog - Inworld AI, Realtime TTS-2 출시 (Inworld AI launches Realtime TTS-2) https://www.testingcatalog.com/inworld-ai-launches-realtime-tts-2-model-for-live-conversations/
-
AIDailyPost - 세 가지 안정성 모드 (Three Stability Modes) https://aidailypost.com/news/inworld-ai-unveils-realtime-tts-2-three-stability-modes
-
OpenAI - API 내 신규 모델로 음성 인텔리전스 발전 (GPT-Realtime-2, Zillow 69%→95%) https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
-
Artificial Analysis - Text to Speech 리더보드 (Elo 1208 등 순위) https://artificialanalysis.ai/text-to-speech/leaderboard
-
Tom's Hardware - 유비소프트, 엔비디아 및 Inworld AI의 Neo NPC 파트너십 (Ubisoft, Nvidia, and Inworld AI Neo NPC partnership) https://www.tomshardware.com/video-games/ubisoft-nvidia-and-inworld-ai-partnership-to-produce-neo-npc-game-characters-with-ai-backed-responses
-
Inworld Blog - Xbox와 Inworld AI의 파트너십 (Xbox partners with Inworld AI) https://inworld.ai/blog/xbox-partners-with-inworld-ai-to-build-generative-ai-tools-for-game-development
-
Inworld GitHub - API 예제 (API Examples) (inworld-ai/inworld-api-examples) https://github.com/inworld-ai/inworld-api-examples
-
Hume AI - 공감적 음성 인터페이스 (Empathic Voice Interface, EVI) https://www.hume.ai/empathic-voice-interface
-
Hume AI - 표현 측정 (Expression Measurement) (음성 프로소디 48차원・언어 감정 53차원) https://www.hume.ai/expression-measurement
-
Kyutai - Moshi: 실시간 대화를 위한 음성-텍스트 파운데이션 모델 (speech-text foundation model) (full-duplex의 학술적 흐름) https://kyutai.org/Moshi.pdf
-
Gartner - 대화형 AI (Conversational AI)를 통해 2026년까지 컨택 센터 인건비를 800억 달러 절감할 전망 https://www.gartner.com/en/newsroom/press-releases/2022-08-31-gartner-predicts-conversational-ai-will-reduce-contac
-
European Union AI Act - 제50조 (AI 생성 콘텐츠의 투명성 의무) https://artificialintelligenceact.eu/article/50/
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기