Vercel헤드라인2026. 06. 30. 02:14

xAI Grok 오디오 모델, Vercel AI Gateway에서 사용 가능

요약

Vercel AI Gateway에서 xAI의 Grok 오디오 모델을 사용할 수 있게 되었습니다. 실시간 음성, TTS, STT 기능을 기존의 라우팅 및 비용 제어 기능과 함께 AI SDK를 통해 구현할 수 있습니다.

핵심 포인트

xAI Grok 오디오 모델(Realtime, TTS, STT) 지원
Vercel AI Gateway를 통한 라우팅 및 관찰 가능성 제공
AI SDK 7을 활용한 음성 에이전트 구현 가이드 제공
WebSocket 기반의 실시간 마이크 캡처 및 오디오 재생 지원

이제 AI Gateway에서 라이브로 제공됩니다. 실시간 음성 (Realtime voice), 텍스트 음성 변환 (Text to speech), 그리고 음성 텍tx 변환 (Speech to text) 기능 모두 기존 모델들과 동일한 라우팅 (Routing), 관찰 가능성 (Observability), 비용 제어 (Spend controls)를 통해 사용할 수 있습니다. xAI의 오디오 모델 AI SDK

이러한 기능들은 AI SDK 7 릴리스에서 사용할 수 있습니다.

음성 에이전트 (Voice agent)는 두 가지 요소로 구성됩니다: API 키가 클라이언트에 절대 도달하지 않도록 단기 토큰을 발행하는 서버 라우트 (Server route), 그리고 이와 연결되는 브라우저 컴포넌트 (Browser component)입니다.

토큰 라우트를 추가하세요: 이 예제는 모델을 xai/grok-voice-think-fast-1.0으로 설정합니다: model

그런 다음 브라우저에서 연결합니다. useRealtime 훅은 해당 라우트를 가져와 WebSocket 연결, 마이크 캡처 (Microphone capture), 그리고 오디오 재생 (Audio playback)을 관리합니다: @ai-sdk/react

generateSpeech를 사용하여 텍스트에서 생성합니다. 음성과 출력 형식을 전달한 다음, xai/grok-tts를 사용하여 결과를 파일로 작성합니다: spoken audio

transcribe를 사용하여 녹음된 내용을 텍스트로 변환합니다. 이 예제는 xai/grok-stt를 사용합니다: Transcribe

AI Gateway 플레이그라운드 (Playground)에서 xAI 오디오 모델을 직접 시도해 볼 수도 있습니다. 플레이그라운드를 열고 모델 중 하나를 클릭하여 브라우저에서 직접 사용할 수 있습니다. 플레이그라운드를 통해 에이전트와 대화하고 즉각적인 응답을 확인할 수 있습니다: 여기의 모델 목록

더 읽어보기

사용 가능한 모델

실시간 (Realtime)

텍스트 음성 변환 (Text to speech)

음성 텍스트 변환 (Speech to text)

플레이그라운드 (Playground)

기능 (Capability)	모델 (Models)
실시간 음성 (Realtime voice)	`xai/grok-voice-think-fast-1.0`
텍스트 음성 변환 (Text to speech)	`xai/grok-tts`
음성 텍스트 변환 (Speech to text)	`xai/grok-stt`

추가 정보

AI 자동 생성 콘텐츠

원문 바로가기