
Gemini API: 음성 스트리밍 대응 및 GMP 폐지에 따른 전환 가이드
요약
Gemini API의 신규 기능인 음성 생성 스트리밍 지원과 실험적 도구인 GMP Contextual View의 폐지에 따른 전환 가이드를 제공합니다. TTS 레이턴시 개선을 위한 스트리밍 도입과 지도 데이터 표시 방식의 변경이 핵심입니다.
핵심 포인트
- gemini-3.1-flash-tts-preview 모델에서 음성 스트리밍 지원
- 스트리밍 도입 시 대화형 AI의 체감 레이턴시 대폭 개선 가능
- GMP Contextual View 폐지에 따른 독자적 지도 UI 구현 필요
- Grounding with Google Maps 데이터 파싱 및 Maps API 활용 권장
Google AI로부터 Gemini API에 관한 두 가지 중요한 업데이트가 발표되었습니다.
(신기능) gemini-3.1-flash-tts-preview 모델에서의 음성 생성 스트리밍 (Streaming) 대응
실험적인 GMP Contextual View 도구의 폐지 (2026년 6월 15일 셧다운 완료)
특히 후자는 **이미 셧다운된 파괴적 변경 (Breaking Change)**입니다. Grounding with Google Maps의 출력 표시(Display)에 GMP Contextual View를 이용하고 있는 프로젝트는 즉각적인 전환 대응이 필요합니다.
📌 영향을 받는 사람
- Gemini API에서 Text-to-Speech (TTS)를 사용하여 음성을 생성하고 있는 엔지니어
- Grounding with Google Maps의 결과를 GMP Contextual View로 표시하고 있는 엔지니어
- Google AI를 이용한 애플리케이션 개발자 전반
| 항목 | 상세 |
|---|---|
| 대상 모델 | gemini-3.1-flash-tts-preview |
| 대응 API | streamGenerateContent, Interactions API (stream: true) |
| 변경 종류 | 신기능 추가 |
| 대응 필요 여부 | 임의 (기존 코드에 영향 없음) |
지금까지 Gemini의 TTS (Text-to-Speech) 기능은 응답 전체가 생성된 후 반환되는 형식뿐이었습니다. 이번 업데이트를 통해 스트리밍 (Streaming)으로 음성 청크 (Chunk)를 실시간으로 받는 것이 가능해졌습니다.
스트리밍 대응을 통해 다음과 같은 유스케이스 (Use Case)를 구현하기 쉬워집니다.
대화형 AI의 응답을 즉시 읽어주기: 텍스트 생성과 병행하여 음성을 재생할 수 있으므로 체감 레이턴시 (Latency)가 대폭 개선됩니다 -
긴 문장 읽어주기: 전체 생성 완료를 기다리지 않고 재생을 시작할 수 있습니다 -
실시간 음성 어시스턴트: 청크 단위로 처리를 끼워 넣음으로써 더욱 자연스러운 대화 경험을 구축할 수 있습니다
💡 Tips
스트리밍 TTS는 gemini-3.1-flash-tts-preview가 대상입니다. 다른 TTS 모델이나 안정판 모델에서의 이용 가능 여부는 Google AI의 공식 Text-to-Speech 가이드에서 확인하십시오.
| 항목 | 상세 |
|---|---|
| 폐지 대상 | GMP Contextual View (실험적 도구) |
| ... | |
| ⚠️ Breaking Change |
GMP Contextual View는 2026년 6월 15일에 셧다운되었습니다. 이 도구를 사용하고 있는 코드는 현재 이미 동작하지 않는 상태입니다. 대체 수단으로의 이전을 즉시 실시하십시오.
GMP Contextual View는 Grounding with Google Maps의 출력 결과를 사용자에게 제시하기 위한 실험적인 고정 인터페이스로서 제공되었습니다. 하지만 실험적 상태인 채로 셧다운되었기 때문에, 이용자는 독자적인 표시 구현으로 전환해야 합니다.
이전 단계:
영향 범위 특정: GMP Contextual View와 관련된 코드 (API 호출, UI 컴포넌트 등)를 파악한다 -
대체 수단 선정: Grounding with Google Maps의 응답 데이터를 직접 파싱(Parsing)하여, Google Maps JavaScript API나 Maps Embed API 등을 사용하여 독자적인 지도 표시 UI를 구축한다 -
테스트 및 교체: 기존의 표시 로직을 새로운 구현으로 교체하고 동작 확인을 수행한다
기존의 TTS 구현을 streamGenerateContent 또는 Interactions API의 stream: true로 전환함으로써 사용자 경험을 향상시킬 수 있습니다.
Before (비 스트리밍)
import google.generativeai as genai
model = genai.GenerativeModel("gemini-3.1-flash-tts-preview")
# 응답 전체가 갖춰질 때까지 대기
...
After (스트리밍 대응)
import google.generativeai as genai
model = genai.GenerativeModel("gemini-3.1-flash-tts-preview")
# streamGenerateContent를 사용하여 청크(chunk) 단위로 수신
...
💡 Tips
스트리밍 (Streaming)을 사용하면 첫 번째 오디오 청크 (Audio Chunk)가 도착하는 즉시 재생을 시작할 수 있습니다. 특히 긴 텍스트의 낭독이나, 채팅 응답의 실시간 음성 변환에 효과적입니다.
Before (폐지됨)
// ❌ GMP Contextual View를 사용한 표시 (현재 작동하지 않음)
const result = await model.generateContent(prompt);
const groundingMetadata = result.response.candidates[0].groundingMetadata;
...
After (자체 구현으로의 전환 예시)
// ✅ Grounding 응답을 직접 파싱하여 자체 표시
const result = await model.generateContent(prompt);
const groundingMetadata = result.response.candidates[0].groundingMetadata;
...
| 변경 사항 | 유형 | 대응 필요 여부 | 우선순위 |
|---|---|---|---|
TTS 스트리밍 (Streaming) 대응 (gemini-3.1-flash-tts-preview) | 신기능 | 선택 사항 | 낮음 (개선 목적이라면 검토) |
| GMP Contextual View 폐지 | 폐지 · 파괴적 변경 (Breaking Change) | 필수 | 높음 (이미 작동 불가) |
이번 업데이트에서 가장 중요한 것은 **GMP Contextual View의 종료 (Shutdown)**입니다. 2026년 6월 15일 시점에서 이미 폐지되었으므로, 이 도구에 의존하고 있는 구현은 현재 작동하지 않습니다. 조속히 코드를 확인하여, Grounding with Google Maps의 응답을 자체적으로 처리 및 표시하는 방식으로 전환하십시오.
반면, TTS 스트리밍 대응은 기존 코드에 영향이 없으며 선택 사항입니다. 음성 AI 어시스턴트나 낭독 기능을 가진 애플리케이션을 개발하고 있다면, 사용자 경험 (UX) 향상 관점에서 적극적으로 활용을 검토할 가치가 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기