OpenAI, 보이스 에이전트를 위한 실시간 오디오 트리오 출시
요약
OpenAI가 실시간 양방향 오디오 처리를 위한 Realtime API의 정식 출시를 발표했습니다. 기존의 까다로웠던 음성 인터랙션 문제를 해결하기 위해 작업별로 최적화된 세 가지 새로운 모델을 도입했습니다.
핵심 포인트
- Realtime API가 베타를 벗어나 정식 출시(GA)됨
- 실시간 양방향 오디오 처리를 위한 세 가지 전용 모델 출시
- GPT-Realtime-2 모델은 높은 추론 능력을 갖춤
- 전화 에이전트 및 실시간 통역 등 프로덕션 환경 적용 가능
원문은 AI Tech Connect에 게시되었습니다.
쉽게 설명하자면 무엇이 변했을까요? 음성(Voice)은 생성형 AI (Generative-AI) 스택에서 다루기 까다로운 중간 단계에 머물러 있었습니다. 텍스트는 저렴하고 잘 이해되어 있으며, 이미지와 비디오는 헤드라인을 장식합니다. 하지만 전화 에이전트, 실시간 자막 피드, 또는 언어가 통하지 않는 두 사람 사이의 통역사 역할을 수행하는 실시간 양방향 오디오(Two-way audio)는 여전히 까다롭고 비용이 많이 드는 영역으로 남아 있었습니다. OpenAI의 5월 7일 발표는 바로 그 격차를 정조준하고 있습니다. 핵심은 Realtime API가 이제 베타 버전을 벗어나 일반 사용 가능(Generally available) 상태가 되었으며, 프로덕션(Production) 환경에 적용될 수 있다는 것입니다. 이와 함께 OpenAI는 하나의 범용적인 "음성" 엔드포인트 대신, 각각의 뚜렷한 작업에 맞춰 조정된 세 가지 새로운 모델을 출시했습니다. GPT-Realtime-2는 OpenAI가 GPT-5급 추론 (Reasoning) 능력을 갖췄다고 설명하는 회사의 첫 번째 음성 모델입니다. 컨텍스트 윈도우 (Context window)가 급증하며...
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기