API의 새로운 모델들을 통한 음성 지능 (voice intelligence)의 발전
요약
본 기사는 개발자들이 세 가지 새로운 오디오 모델(GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper)을 활용하여 더욱 자연스럽고 지능적인 음성 앱을 구현할 수 있도록 API를 확장했음을 설명합니다. 이 모델들은 복잡한 추론 능력, 실시간 다국어 번역, 스트리밍 STT 기능을 제공하며, 단순한 질의응답을 넘어선 진화된 음성 인터페이스 구축을 가능하게 합니다. 음성 AI는 이제 'Voice-to-action', 'Systems-to-voice', 'Voice-to-voice'와 같은 세 가지 패턴으로 발전하고 있으며, GPT-Realtime-2와 같은 새로운 기능들은 에이전트가 작업 처리 과정과 실패 상황까지도 사용자에게 자연스럽게 전달하며 대화를 지속할 수 있도록 돕습니다.
핵심 포인트
- GPT-Realtime-2는 복잡한 추론 능력을 갖추어 자연스러운 대화 흐름을 유지하는 데 최적화된 음성 모델입니다.
- 실시간 다국어 번역(70개+ 입력 언어, 13개 출력 언어)과 스트리밍 STT 기능을 제공하여 글로벌 및 실시간 상호작용에 활용 가능합니다.
- 음성 AI는 단순한 문답을 넘어 'Voice-to-action', 'Systems-to-voice', 'Voice-to-voice'와 같은 복합적인 패턴으로 진화하고 있습니다.
- 새로운 기능들(Preambles, 병렬 도구 호출 등)은 음성 에이전트가 작업 처리 과정이나 실패 상황을 사용자에게 자연스럽게 안내하며 응답성을 유지하도록 돕습니다.
우리는 개발자들이 새로운 클래스의 음성 앱을 구현할 수 있도록 API에 세 가지 오디오 모델을 도입합니다. 이 모델들을 통해 개발자들은 더욱 자연스럽게 느껴지고, 더 지능적으로 반응하며, 실시간으로 동작을 수행하는 음성 경험을 구축할 수 있습니다:
GPT‑Realtime‑2: 더 어려운 요청을 처리하고 대화를 자연스럽게 이어갈 수 있는 GPT‑5급 추론 (reasoning) 능력을 갖춘 우리의 첫 번째 음성 모델입니다. GPT‑Realtime‑Translate: 화자의 속도에 맞춰 70개 이상의 입력 언어에서 13개의 출력 언어로 음성을 번역하는 새로운 실시간 번역 모델입니다. GPT‑Realtime‑Whisper: 화자가 말하는 동안 실시간으로 음성을 받아쓰는 새로운 스트리밍 음성-텍스트 변환 (speech-to-text) 모델입니다.
GPT-Realtime-2 시도하기
무엇을 물어볼 수 있나요?
세션을 시작한 후, 다음 중 하나를 말해 보세요:
- 오늘 밤 갑작스럽게 저녁 식사를 주최하게 됐어. 30분의 시간이 있고, 채식주의자 친구 두 명과 버섯을 싫어하는 친구 한 명, 그리고 아주 작은 주방이 있어. 간단한 메뉴 계획을 도와줘.
- 일본에서 열리는 라이브 이벤트에 손님들을 맞이하고 있어. 특별한 행사를 시작하는 호스트처럼, 일본어로 따뜻하고 자연스러운 환영 인사를 해줘.
- 내 주문 번호는 Orbit-742Q야. 내가 맞는지 확인할 수 있도록 명확하게 다시 말해줘.
- 우리 팀에게 출시 마일스톤을 달성했다고 말하는 연습을 도와줘. 먼저 차분하고 자신감 있게 말하고, 그다음에는 더 흥분된 어조로 말해줘.
- 로드 트립을 위한 퀴즈를 계획 중이야. 속기 쉬울 정도로 단순해 보이는 까다로운 질문 세 개를 내주고, 각 정답을 한 문장으로 설명해줘.
음성은 사람들이 소프트웨어를 사용하는 가장 자연스러운 방법 중 하나가 되고 있습니다. 음성을 사용하면 운전 중에 도움을 요청하거나, 공항을 걷는 동안 여행 계획을 변경하거나, 선호하는 언어로 지원을 받거나, 타이핑을 위해 멈추지 않고도 작업을 수행할 수 있습니다.
하지만 유용한 음성 제품을 만드는 것은 빠른 대화 차례 주고받기(turn-taking)나 자연스럽게 들리는 목소리 그 이상을 필요로 합니다. 음성 에이전트(voice agent)는 상대방이 의미하는 바를 이해하고, 문맥(context)을 파악하며, 요청이 변경되었을 때 복구하고, 대화가 진행되는 동안 도구(tools)를 사용하며, 그 순간에 적절하다고 느껴지는 방식으로 응답할 수 있어야 합니다.
우리가 출시하는 모델들은 실시간 오디오 (realtime audio)를 단순한 문답(call-and-response) 방식에서 벗어나, 대화가 전개됨에 따라 듣고, 추론하고, 번역하고, 전사(transcribe)하며, 실제로 행동을 취할 수 있는 음성 인터페이스(voice interfaces)로 진화시킵니다.
음성이 소프트웨어를 사용하는 더욱 자연스러운 방식이 됨에 따라, 개발자들이 음성 AI (voice AI)에서 나타나는 세 가지 새로운 패턴을 중심으로 구축하는 것을 목격하고 있습니다:
Voice-to-action (음성-실행): 사용자가 필요한 내용을 설명하면 시스템이 요청을 추론하고, 도구(tools)를 사용하며, 작업을 완료할 수 있는 방식입니다. 예를 들어, Zillow는 "내 구매 능력(BuyAbility) 범위 내의 집을 찾아주고, 번잡한 거리는 피해서, 토요일에 투어를 예약해줘"와 같은 요청을 듣고, 추론하며, 실행할 수 있는 어시스턴트를 구축하고 있습니다. Systems-to-voice (시스템-음성): 소프트웨어가 문맥(context)을 실시간 음성 안내로 전환할 수 있는 방식입니다. 예를 들어, 여행 앱이 여행객에게 "도착 항공편이 지연되었지만, 연결편은 여전히 이용 가능합니다. 새로운 게이트를 찾았고, 터미널 내 최단 경로를 확인했으며, 수하물은 예정대로 환승될 것입니다"라고 선제적으로 알려줄 수 있습니다. Voice-to-voice (음성-음성): AI가 언어, 작업 또는 변화하는 문맥을 가로질러 실시간 대화가 계속 이어지도록 도울 수 있는 방식입니다. 예를 들어, Deutsche Telekom은 고객이 가장 편안한 언어로 말하면 모델이 실시간으로 대화를 번역해 주는 음성 지원 경험을 구축하고 있습니다.
이러한 패턴들은 서로 함께 작동할 수도 있습니다. Priceline은 여행객이 음성으로 전체 여행을 관리할 수 있는 미래를 향해 나아가고 있습니다. 즉, 대화하듯 항공편과 호텔을 검색하고, 항공편 지연 후 호텔 예약 변경과 같은 수정 사항을 처리하거나 TSA 대기 시간에 대한 실시간 업데이트를 받는 등의 작업을 수행하며, 여행객이 현지에 도착했을 때 대화를 번역하는 것까지 포함합니다.
GPT-Realtime-2는 모델이 요청을 추론하고, 도구(tools)를 호출하며, 수정이나 중단을 처리하고, 그 순간에 적절한 방식으로 응답하는 동안 대화를 계속 이어가는 실시간 음성 상호작용(live voice interactions)을 위해 구축되었습니다.
Preambles (서문): 개발자는 "잠시 확인해 보겠습니다" 또는 "찾아보는 동안 잠시만 기다려 주세요"와 같이 메인 응답 전에 짧은 문구를 활성화할 수 있어, 사용자가 에이전트가 요청을 처리 중임을 알 수 있게 할 수 있습니다.
Parallel tool calls (병렬 도구 호출) 및 tool transparency (도구 투명성): 모델은 여러 도구를 동시에 호출할 수 있으며, "일정을 확인 중입니다" 또는 "지금 찾아보고 있습니다"와 같은 문구를 통해 해당 동작을 청각적으로 전달할 수 있습니다. 이는 에이전트가 작업을 완료하는 동안 응답성을 유지하도록 돕습니다.
Stronger recovery behavior (강화된 복구 동작): 모델은 아무런 반응 없이 실패하거나 대화가 끊기는 대신, "지금 해당 작업에 어려움을 겪고 있습니다"와 같은 말을 함으로써 더 유연하게 복구할 수 있습니다.
Longer context for agentic workflows (에이전트 워크플로우를 위한 더 긴 컨텍스트): 더 길고 일관된 세션과 더 복잡한 작업 흐름을 지원하기 위해 컨텍스트 윈도우(context window)를 32K에서 128K로 확장합니다.
Stronger domain understanding (강화된 도메인 이해): 모델은 전문 용어, 고유 명사, 의료 용어 및 실제 운영 환경에서 중요한 기타 어휘들을 더 잘 유지합니다.
More controllable tone and delivery (더 제어 가능한 톤과 전달 방식): 모델은 문제를 해결할 때는 차분하게 말하고, 사용자가 좌절했을 때는 공감하며, 성공적인 동작을 확인할 때는 활기차게 말하는 등 톤을 더 잘 조절할 수 있습니다.
Adjustable reasoning effort (조절 가능한 추론 노력): 개발자는 이제 minimal, low, medium, high, xhigh 추론 수준 중에서 선택할 수 있으며, low가 기본값으로 설정됩니다. 이를 통해 단순한 상호작용을 위한 낮은 지연 시간(latency)과 복잡한 요청을 위한 더 신중한 추론 사이의 균형을 맞출 수 있습니다.
이러한 향상된 성능은 실제 운영 환경의 음성 에이전트와 밀접하게 연관된 오디오 평가(audio evals)에서 나타납니다. GPT-Realtime-2 (high)는 오디오 지능(audio intelligence) 측면에서 Big Bench Audio 점수가 GPT-Realtime-1.5보다 15.2% 더 높습니다. GPT-Realtime-2 (xhigh)는 지시 이행(instruction following) 측면에서 Audio MultiChallenge 점수가 13.8% 더 높으며, 이는 GPT-Realtime-1.5보다 개선된 수치로 실시간 대화에서 더 강력한 추론, 컨텍스트 관리 및 제어 능력을 보여줍니다.
GPT-Realtime-2의 마법은 다양한 사용 사례에서 나타납니다:
초기 테스트 기간 동안, 기업들은 GPT‑Realtime‑2를 사용하여 고객과 직원이 자연스러운 대화를 통해 업무를 처리할 수 있도록 돕는 음성 에이전트 (voice agents)를 구축했습니다.
“GPT-Realtime-2에서 눈에 띄었던 점은 복잡한 음성 상호작용 (voice interactions)에서 제공하는 지능과 도구 호출 (tool-calling)의 신뢰성이었습니다. 당사의 가장 까다로운 적대적 벤치마크 (adversarial benchmark)에서, 이는 프롬프트 최적화 (prompt optimization) 이후 통화 성공률이 26포인트 상승하는 결과로 나타났습니다 (95% 대 69%). 또한 GPT-Realtime-2는 당사 비즈니스에 매우 중요한 Fair Housing 준수 사항에 대해 실질적으로 더 강력한 견고함 (robustness)을 보여줍니다. 에이전트적 역량 (agentic competence)과 가드레일 (guardrail) 강도의 결합이 Zillow에서 이를 실제 서비스용 음성 (production voice)으로 사용할 수 있게 만드는 핵심입니다.”
GPT‑Realtime‑Translate는 개발자가 각 사용자가 선호하는 언어로 말하고, 대화 내용을 실시간으로 번역하여 들으며 실시간 전사 (real time transcriptions)를 읽을 수 있는 실시간 다국어 음성 경험을 구축할 수 있도록 돕습니다. 이 모델은 70개 이상의 입력 언어와 13개의 출력 언어를 지원하여 고객 지원, 국경 간 영업, 교육, 이벤트, 미디어, 그리고 글로벌 관객을 대상으로 하는 크리에이터 플랫폼에 유용합니다.
개발자들에게 있어 실시간 번역은 사람들이 자연스럽게 말하거나, 문맥을 전환하거나, 지역적 발음 및 도메인 특화 언어를 사용할 때에도 화자의 속도에 맞추면서 의미를 보존해야 합니다. 예를 들어, Deutsche Telekom은 다국어 음성 상호작용을 위해 이 모델을 테스트하고 있으며, 여기서 낮은 지연 시간 (lower latency)과 더 강력한 유창성 (fluency)은 언어 간 대화를 더욱 자연스럽게 만들 수 있습니다.
이 영상에서 Vimeo는 GPT‑Realtime‑Translate가 제품 교육 영상을 재생되는 동안 실시간으로 번역하여, 글로벌 고객들이 별도로 제작된 버전을 기다릴 필요 없이 선호하는 언어로 업데이트 내용을 들을 수 있는 방법을 보여줍니다.
“인도를 위한 음성 AI (voice AI)를 구축한다는 것은 다양한 지역적 음성학 (phonetics)을 처리해야 함을 의미합니다. Hindi, Tamil, Telugu를 대상으로 진행한 평가 (evals)에서, GPT-Realtime-Translate는 우리가 테스트한 다른 어떤 모델보다 12.5% 낮은 단어 오류율 (Word Error Rates)을 기록했을 뿐만 아니라, 더 낮은 폴백 비율 (fallback rates), 더 높은 작업 완료율 (task completion), 그리고 자연스러운 대화를 유지하는 지연 시간 (latency)을 보여주었습니다. 이는 다국어 음성 AI의 새로운 표준을 제시합니다.”
GPT-Realtime-Whisper는 저지연 음성-텍스트 변환 (speech-to-text)을 위해 구축된 새로운 스트리밍 전사 (streaming transcription) 모델입니다. 이 모델은 사람들이 말하는 즉시 오디오를 전사하므로, 실시간 자막이 즉각적으로 나타나거나 대화 속도를 따라가는 회의록 작성 등 라이브 제품이 더 빠르고, 반응성이 좋으며, 더 자연스럽게 느껴질 수 있도록 합니다.
이 모델은 실시간 음성을 비즈니스 워크플로 (workflows) 내에서 발생하는 즉시 활용 가능하게 만듭니다. 팀은 회의, 강의실, 방송 및 이벤트를 위한 자막을 지원할 수 있고, 대화가 진행 중인 동안 노트와 요약본을 생성할 수 있으며, 사용자를 지속적으로 이해해야 하는 음성 에이전트 (voice agents)를 구축할 수 있습니다. 또한 고객 지원, 의료, 영업, 채용 및 기타 대량의 음성 상호작용을 위한 더 빠른 후속 워크플로를 생성할 수 있습니다.
Realtime API는 오용을 방지하기 위해 여러 계층의 안전장치 (safeguards)와 완화 조치 (mitigations)를 포함하고 있습니다. 우리는 Realtime API 세션에 대해 능동적 분류기 (active classifiers)를 적용하며, 이는 특정 대화가 우리의 유해 콘텐츠 가이드라인을 위반하는 것으로 감지될 경우 해당 대화를 중단할 수 있음을 의미합니다. 개발자는 또한 Agents SDK를 사용하여 자신만의 추가적인 안전 가드레일 (safety guardrails)을 쉽게 추가할 수 있습니다.
우리의 사용 정책은 스팸, 기만 또는 기타 유해한 목적으로 서비스의 출력물을 재사용하거나 배포하는 것을 금지합니다. 또한 개발자는 문맥상 이미 명백한 경우가 아니라면, 최종 사용자가 AI와 상호작용하고 있음을 명확히 알려야 합니다.
Realtime API는 EU 기반 애플리케이션을 위한 EU 데이터 레지던시 (EU Data Residency)를 전적으로 지원하며, 우리의 기업용 개인정보 보호 약속 (enterprise privacy commitments)의 적용을 받습니다.
GPT‑Realtime‑2, GPT‑Realtime‑Translate 및 GPT‑Realtime‑Whisper는 Realtime API에서 사용할 수 있습니다. GPT‑Realtime‑2의 가격은 오디오 입력 토큰 100만 개당 $32 (캐시된 입력 토큰의 경우 $0.40), 오디오 출력 토큰 100만 개당 $64입니다. GPT‑Realtime‑Translate는 분당 $0.034입니다. GPT‑Realtime‑Whisper는 분당 $0.017입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 OpenAI Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기