
Gemini 2.5 Flash로 진화한 음성 AI: 대화 및 통역 기능 강화
요약
Google이 Gemini 2.5 Flash Native Audio 모델을 업데이트하여 라이브 음성 에이전트와 글로벌 커뮤니케이션 기능을 크게 향상시켰습니다. 이번 개선으로 AI는 복잡한 워크플로우 처리, 사용자 지침 준수, 자연스러운 대화 흐름 유지 능력이 강화되었습니다. 또한, Google 번역 앱에 실시간 음성 통역 기능(Live speech translation)이 베타로 출시되어 화자의 억양과 속도를 보존하며 70개 이상의 언어를 지원합니다. 개발자들은 Vertex AI를 통해 이 강력한 기능을 활용하여 차세대 기업용 고객
핵심 포인트
- Gemini 2.5 Flash Native Audio는 함수 호출(function calling)의 정확성을 높여 실시간 정보 검색 및 응답에 활용됩니다.
- 복잡한 지침 준수율이 높아져 사용자 만족도가 향상되었으며, 다중 턴 대화에서 맥락을 효과적으로 유지합니다.
- Google 번역 앱에서 화자의 억양과 속도를 보존하는 실시간 음성 통역(Live speech translation) 기능을 사용할 수 있게 되었습니다.
- 기업들은 Vertex AI를 통해 이 모델을 활용하여 고도화된 고객 서비스 에이전트를 구축할 수 있습니다.
Google은 Gemini 2.5 Flash Native Audio 모델 업데이트를 발표하며, 라이브 음성 에이전트와 글로벌 통신 경험을 대폭 개선했습니다.
이번 업데이트의 핵심은 AI가 복잡한 작업 흐름을 처리하고 사용자 지침을 따르며 자연스러운 대화를 이어가는 능력을 강화했다는 점입니다. Gemini 2.5 Flash Native Audio는 Google AI Studio, Vertex AI 등 다양한 제품에 적용되며, Search Live에서도 처음으로 네이티브 오디오의 자연스러움을 경험할 수 있게 되었습니다.
주요 개선 사항:
- 정교한 함수 호출 (Sharper function calling): 외부 기능을 트리거하는 신뢰성이 높아져, 대화 중 실시간 정보를 정확히 파악하고 흐름을 끊지 않게 응답에 통합합니다.
- 견고한 지침 준수 (Robust instruction following): 복잡한 사용자 지침 처리 능력이 향상되어 콘텐츠 완성도가 높아지고 신뢰성 있는 출력을 제공합니다.
- 매끄러운 대화 흐름 (Smoother conversations): 이전 대화의 맥락을 효과적으로 검색하여 일관성이 높은 다중 턴(multi-turn) 대화를 구현합니다.
또한, 글로벌 커뮤니케이션 측면에서 Google 번역 앱에 실시간 음성 통역 기능이 베타로 출시되었습니다. 이 기능은 화자의 억양과 속도를 보존하며 70개 이상의 언어 스트리밍 통역을 지원하여 국제적인 소통의 질을 높입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기