Gemini 3.5 Live Translate를 활용한 유연하고 자연스러운 음성 번역
요약
Google이 실시간 음성 대 음성 번역을 위한 최신 오디오 모델인 Gemini 3.5 Live Translate를 출시했습니다. 이 모델은 70개 이상의 언어를 감지하며 화자의 억양과 속도를 보존하여 자연스러운 연속 번역을 제공합니다.
핵심 포인트
- 70개 이상의 언어 자동 감지 및 자연스러운 음성 생성
- 문맥 유지와 실시간성 사이의 최적화된 절충안 적용
- Gemini Live API 및 Google AI Studio를 통한 개발자 미리보기 제공
- 시끄러운 환경에서도 작동하는 뛰어난 노이즈 강건성 보유
20년 전, Google의 번역은 언어 과학을 인간 연결의 마법으로 바꾸기 위한 선구적인 머신 러닝 (Machine Learning) 실험 중 하나로 시작되었습니다. 그 실험은 매달 수십억 명의 사용자들을 위해 수조 개 이상의 단어를 번역하며 먼 길을 걸어왔습니다.
우리는 실시간 음성 대 음성 번역 (Speech-to-speech translation)을 위한 최신 오디오 모델인 Gemini 3.5 Live Translate를 출시하며 다음 단계로 나아가고 있습니다.
이 모델은 70개 이상의 언어를 자동으로 감지하며, 화자의 억양 (Intonation), 속도 (Pacing), 음조 (Pitch)를 보존하는 매끄럽고 자연스러운 번역 음성을 생성합니다. 화자가 말을 마칠 때까지 기다렸다가 응답하는 턴 바이 턴 (Turn by turn) 시스템과 달리, 3.5 Live Translate는 품질을 높이기 위해 문맥을 기다리는 것과 화자와 동기화하기 위해 즉시 번역하는 것 사이의 절충안 (Trade-off)을 조절하며 음성을 연속적으로 생성합니다. 이를 통해 어색한 중단 없이 유연한 오디오를 전달하며, 세션 내내 화자보다 단 몇 초 뒤처진 상태를 유지합니다.
Gemini 3.5 Live Translate는 다음과 같이 Google 제품 전반에 걸쳐 출시됩니다:
- 개발자를 위한 공개 미리보기 (Public preview): Gemini Live API 및 Google AI Studio를 통해 제공
- 기업을 위한 비공개 미리보기 (Private preview): 이번 달부터 Google Meet에서 시작
- 모든 사용자를 위한 서비스: Android 및 iOS의 Google Translate를 통해 제공
3.5 Live Translate로 구축하기
Gemini 3.5 Live Translate는 음성이 스트리밍되는 동안 이를 처리하여 언어 간의 더욱 원활한 연결을 가능하게 합니다. 이 모델은 수동으로 설정을 구성할 필요 없이 다국어 입력 (multilingual inputs)을 처리합니다. 동시에, 뛰어난 노이즈 강건성 (noise robustness)을 갖추고 있어 시끄럽고 예측 불가능한 환경에서도 애플리케이션이 원활하게 작동하도록 보장합니다. 이러한 역량을 활용하여 다국어 통화, 회의, 수업, 방송 등을 위한 실시간 통역 (live interpretation)을 용이하게 할 수 있습니다.
더빙 및 동시 다국어 번역을 가능하게 하는 Gemini Live API의 작동 모습을 확인해 보세요. 데모 또는 Gemini Cookbook의 더 많은 예제 코드를 살펴보세요.
Gemini Live API를 활용함으로써 Agora, Fishjam, LiveKit, Pipecat, 그리고 Vision Agents와 같은 개발자 플랫폼을 통해 개발자들은 음성 번역 앱을 쉽게 구축하고 배포할 수 있습니다. 이러한 통합 솔루션들은 복잡한 실시간 미디어 스트리밍 인프라 (real-time media streaming infrastructure)를 처리하므로, 개발자는 사용자 경험 (user experience)에 집중할 수 있습니다.
Grab의 파트너들은 승차 시 운전자와 여행객 간의 거의 실시간에 가까운 다국어 통신을 가능하게 하기 위해 이 모델을 테스트하고 있습니다. 이 사용자들은 Grab을 통해 매월 1,000만 건 이상의 음성 통화를 수행합니다.
Grab이 사용자 간의 통신을 혁신하기 위해 3.5 Live Translate를 어떻게 테스트해 왔는지 확인해 보세요.
초기 리뷰 읽기
Grab 외에도 CJ ENM, LiveKit 등의 기업들이 3.5 Live Translate의 인상적인 번역 품질, 정확도 및 낮은 지연 시간 (low latency)을 강조하며 긍정적인 피드백을 공유했습니다:
"Gemini 3.5 Live Translate를 테스트하면서, 여러 언어를 자동으로 감지하고 낮은 지연 시간 (low latency)으로 음성을 정확하게 번역하는 능력에 높은 가치를 두었습니다."
Philipp Kandal
Grab의 Chief Product Officer
"CJ ENM은 3.5 Live Translate를 통해 Google DeepMind와 협력하게 되어 매우 기쁩니다. 초기 테스트 결과, 글로벌 및 한국 시청자들에게 더욱 실감 나는 경험을 제공할 수 있는 유망한 품질을 보여주었습니다."
Bella Baek
CJ ENM의 Chief AI Officer
"Gemini 3.5 Live Translate는 다국어 음성 통역을 수월하게 만들어 줍니다. 저는 LiveKit Agents를 활용하여 모든 사람이 각자의 언어로 말하면서도 실시간으로 서로를 이해할 수 있는 데모를 구축했습니다."
Jesse Hall
LiveKit의 Staff Developer Advocate
"3.5 Live Translate 모델을 사용하는 동안 여러 언어에 걸쳐 테스트를 진행했으며, 저희 팀은 모델의 속도, 정확도, 그리고 생동감에 매우 놀랐습니다."
Nash Ramdial
Vision Agents의 Director
"Gemini 3.5 Live Translate와 Fishjam의 MoQ 프로토콜의 결합은 실시간 멀티미디어 스트리밍의 새로운 지평을 열었으며, 70개 이상의 언어로 음성 대 음성 (speech-to-speech) 번역을 가능하게 합니다."
Maciej Rys
Software Mansion의 VP of Engineering
"Agora에서 Gemini 3.5 Live Translate 모델을 테스트한 결과, 저희 의견으로는 낮은 지연 시간과 높은 정확도를 갖춘 SOTA (State-of-the-Art) 결과를 제공하였으며, 이는 실시간 번역의 새로운 기준을 세웠습니다."
Mason Adams
Agora의 Developer Evangelist
비디오 회의에서 3.5 Live Translate를 경험해 보세요
Google Meet의 음성 번역 (Speech translation) 기능에 곧 3.5 Live Translate가 적용되어 다음과 같이 경험이 개선됩니다:
- 기존 5개 언어 제한에서 개선되어 70개 이상의 언어를 제공,
- 영어와의 상호 번역만 가능했던 이전 상태에서 확장되어, 한 회의 내에서 2,000개 이상의 언어 조합을 통한 대화 가능,
- 음성 번역에 즉시 접근할 수 있도록 인터페이스 업데이트.
이번 업데이트는 이번 달부터 일부 비즈니스 Google Workspace 고객을 대상으로 프라이빗 프리뷰(private preview)로 출시되며, 올해 말에 더 광범위한 출시가 이어질 예정입니다.
[IMG:1]
Google Meet 참가자들은 음성 번역(speech translation)을 사용하여 영어, 중국어(Mandarin), 스웨덴어로 소통합니다.
Android 또는 iOS의 Google Translate 앱에서 3.5 Live Translate 사용하기
이 모델은 Android 및 iOS 모두에서 Google Translate 앱을 통해 전 세계적으로 출시되고 있습니다. Live translate 기능을 사용할 때, 어떤 헤드폰이든 연결하기만 하면 70개 이상의 언어에 걸쳐 화자의 어조를 반영하는 더욱 매끄러운 번역을 경험할 수 있습니다.
Android 사용자들을 위해, 3.5 Live Translate가 적용된 새로운 '듣기 모드(listening mode)'도 출시하기 시작했습니다. 이 모드를 사용하면 휴대폰의 수화기를 통해 번역 내용을 직접 들을 수 있습니다. 일반적인 전화 통화를 하듯 휴대폰을 귀에 대기만 하면, 번역된 오디오가 사용자에게 바로 스트리밍됩니다. 이 새로운 경험은 헤드폰이 없는 상황에서 다른 사람에게 들리지 않게 번역 내용을 빠르게 듣고 싶을 때 유용할 수 있습니다.
[IMG:2]
Your browser does not support the video tag.
[IMG:3]
새로운 듣기 모드를 사용하여, 사용자는 스페인어로 진행되는 가이드 투어를 휴대폰 수화기를 통해 거의 실시간에 가까운 영어 번역으로 들을 수 있습니다.
SynthID를 통한 워터마킹
저희 모델에 의해 생성된 모든 오디오에는 SynthID 워터마크가 삽입됩니다. 이 감지할 수 없는 워터마크는 오디오 출력에 직접 직조되어, AI 생성 콘텐츠를 식별할 수 있도록 보장함으로써 오정보(misinformation) 방지에 도움을 줍니다. 안전 및 책임에 대한 저희의 접근 방식에 대한 자세한 내용은 모델 카드(model card)를 검토하십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기