AI Gateway에서 실시간 음성, 음성 합성 및 전사 지원 시작
요약
Vercel AI Gateway가 실시간 음성, 음성 합성(TTS), 음성 전사(STT) 기능을 지원하기 시작했습니다. 기존 텍스트 및 이미지 모델과 동일한 관찰 가능성과 비용 제어 기능을 제공하며, AI SDK를 통해 개발자가 쉽게 구현할 수 있습니다.
핵심 포인트
- 실시간 음성 에이전트 구축을 위한 저지연 대화 기능 지원
- 텍스트를 음성으로 변환하거나 오디오를 텍스트로 전사하는 기능 포함
- 기존 AI Gateway의 관찰 가능성 및 비용 제어 기능 유지
- useRealtime 훅을 통한 간편한 브라우저 기반 구현 지원
이제 음성 및 오디오 모델을 지원합니다. 실시간 음성 에이전트(voice agents)를 구축하고, 텍스트에서 음성을 생성하며, 오디오를 텍스트로 전사(transcribe)할 수 있습니다. 이는 AI Gateway의 텍스트, 이미지 및 비디오 모델과 동일한 관찰 가능성(observability), 비용 제어(spend controls), 그리고 BYOK(bring-your-own-key) 지원을 추가 비용이나 플랫폼 수수료 없이 제공합니다. 이러한 기능은 베타 버전이며 AI Gateway AI SDK를 통해 사용할 수 있습니다.
실시간 지원을 통해 단일 모델이 오디오 입력과 오디오 출력을 모두 처리하므로, 사용자는 별도의 모델 체인을 기다릴 필요 없이 거의 실시간으로 대화하고 답변을 들을 수 있습니다.
시작하는 두 가지 방법:
음성 에이전트는 두 가지 요소로 구성됩니다. API 키가 클라이언트에 전달되지 않도록 단기 토큰을 발행하는 서버 라우트(server route)와, 이에 연결되는 브라우저 컴포넌트(browser component)입니다.
토큰 라우트를 추가하세요:
그 다음 브라우저에서 연결합니다. useRealtime 훅은 해당 라우트를 가져와 WebSocket 연결, 마이크 캡처 및 오디오 재생을 관리합니다.
코드를 작성하지 않고도 오디오 모델을 시도해 볼 수 있습니다. 모델 페이지를 열고, 모델을 클릭하여 브라우저에서 바로 상호작용해 보세요.
AI Gateway의 실시간 음성, 음성 합성, 전사 및 모델에 대한 자세한 내용은 문서를 참조하세요. AI Gateway에서 지원하는 모든 실시간 음성, 음성 합성, 전사 및 모델 목록을 보려면 전체 목록을 확인하세요.
| 기능 |
| 기능 |
| --- | --- |
| 실시간 음성 에이전트 (Realtime voice agents) | 모델이 사용자의 말을 듣고, 응답을 도출하여 실시간 저지연 (low-latency) 대화로 다시 말합니다. 대화 도중 무언가를 검색하거나 작업을 수행하기 위해 사용자의 도구 (tools)를 호출할 수 있습니다. 훅 (hook)은 마이크 캡처 및 재생을 처리합니다. useRealtime |
| 텍스트 음성 변환 (Text to speech) | 선택 가능한 목소리와 MP3와 같은 출력 형식을 사용하여 텍스트로부터 음성 오디오를 생성합니다. 내레이션, 작성된 콘텐츠의 오디오 버전, 음성 응답 등에 사용하세요. |
| 음성 텍스트 변환 (Speech to text) | 파일 버퍼 (file buffer), base64 문자열 또는 URL로부터 녹음된 내용을 텍스트로 전사 (transcribe)합니다. 음성 메모나 기타 전사 작업에 사용하세요. |
- 아래의 실시간 예시를 따르거나, 앱에 음성 에이전트를 추가하려면 실시간 퀵스타트 (realtime quickstart)를 확인하세요.
- AI Gateway 플레이그라운드 (Playground)에서 코드 없이 브라우저를 통해 실시간 모델과 대화해 보세요. 플레이그라운드 (playground)
실시간 예시 (Realtime example)
플레이그라운드 (Playground)
- 실시간 모델과 대화하여 음성 대화를 나누기
- 텍스트를 보내고 전사 (transcription) 모델이 이를 다시 읽어주도록 하기
- 오디오 모델에 말을 걸고 모델이 당신의 말을 전사하도록 하기
AI 자동 생성 콘텐츠
본 콘텐츠는 Vercel AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기