본문으로 건너뛰기

© 2026 Molayo

Vercel헤드라인2026. 06. 30. 00:36

AI Gateway에서 실시간 음성, 음성 합성 및 전사 지원 시작

요약

Vercel AI Gateway가 실시간 음성, 음성 합성(TTS), 음성 전사(STT) 기능을 지원하기 시작했습니다. 기존 텍스트 및 이미지 모델과 동일한 관찰 가능성과 비용 제어 기능을 제공하며, AI SDK를 통해 개발자가 쉽게 구현할 수 있습니다.

핵심 포인트

  • 실시간 음성 에이전트 구축을 위한 저지연 대화 기능 지원
  • 텍스트를 음성으로 변환하거나 오디오를 텍스트로 전사하는 기능 포함
  • 기존 AI Gateway의 관찰 가능성 및 비용 제어 기능 유지
  • useRealtime 훅을 통한 간편한 브라우저 기반 구현 지원

이제 음성 및 오디오 모델을 지원합니다. 실시간 음성 에이전트(voice agents)를 구축하고, 텍스트에서 음성을 생성하며, 오디오를 텍스트로 전사(transcribe)할 수 있습니다. 이는 AI Gateway의 텍스트, 이미지 및 비디오 모델과 동일한 관찰 가능성(observability), 비용 제어(spend controls), 그리고 BYOK(bring-your-own-key) 지원을 추가 비용이나 플랫폼 수수료 없이 제공합니다. 이러한 기능은 베타 버전이며 AI Gateway AI SDK를 통해 사용할 수 있습니다.

실시간 지원을 통해 단일 모델이 오디오 입력과 오디오 출력을 모두 처리하므로, 사용자는 별도의 모델 체인을 기다릴 필요 없이 거의 실시간으로 대화하고 답변을 들을 수 있습니다.

시작하는 두 가지 방법:

음성 에이전트는 두 가지 요소로 구성됩니다. API 키가 클라이언트에 전달되지 않도록 단기 토큰을 발행하는 서버 라우트(server route)와, 이에 연결되는 브라우저 컴포넌트(browser component)입니다.

토큰 라우트를 추가하세요:

그 다음 브라우저에서 연결합니다. useRealtime 훅은 해당 라우트를 가져와 WebSocket 연결, 마이크 캡처 및 오디오 재생을 관리합니다.

코드를 작성하지 않고도 오디오 모델을 시도해 볼 수 있습니다. 모델 페이지를 열고, 모델을 클릭하여 브라우저에서 바로 상호작용해 보세요.

AI Gateway의 실시간 음성, 음성 합성, 전사 및 모델에 대한 자세한 내용은 문서를 참조하세요. AI Gateway에서 지원하는 모든 실시간 음성, 음성 합성, 전사 및 모델 목록을 보려면 전체 목록을 확인하세요.

더 읽어보기

| 기능 |

| 기능 |
| --- | --- |
| 실시간 음성 에이전트 (Realtime voice agents) | 모델이 사용자의 말을 듣고, 응답을 도출하여 실시간 저지연 (low-latency) 대화로 다시 말합니다. 대화 도중 무언가를 검색하거나 작업을 수행하기 위해 사용자의 도구 (tools)를 호출할 수 있습니다. 훅 (hook)은 마이크 캡처 및 재생을 처리합니다. useRealtime |
| 텍스트 음성 변환 (Text to speech) | 선택 가능한 목소리와 MP3와 같은 출력 형식을 사용하여 텍스트로부터 음성 오디오를 생성합니다. 내레이션, 작성된 콘텐츠의 오디오 버전, 음성 응답 등에 사용하세요. |
| 음성 텍스트 변환 (Speech to text) | 파일 버퍼 (file buffer), base64 문자열 또는 URL로부터 녹음된 내용을 텍스트로 전사 (transcribe)합니다. 음성 메모나 기타 전사 작업에 사용하세요. |

  1. 아래의 실시간 예시를 따르거나, 앱에 음성 에이전트를 추가하려면 실시간 퀵스타트 (realtime quickstart)를 확인하세요.
  2. AI Gateway 플레이그라운드 (Playground)에서 코드 없이 브라우저를 통해 실시간 모델과 대화해 보세요. 플레이그라운드 (playground)

실시간 예시 (Realtime example)

플레이그라운드 (Playground)

  • 실시간 모델과 대화하여 음성 대화를 나누기
  • 텍스트를 보내고 전사 (transcription) 모델이 이를 다시 읽어주도록 하기
  • 오디오 모델에 말을 걸고 모델이 당신의 말을 전사하도록 하기

AI 자동 생성 콘텐츠

본 콘텐츠는 Vercel AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0