Google은 단 하나의 기능만으로 스타트업 카테고리 전체를 무너뜨릴 수 있다
요약
Google의 NotebookLM이 가진 강력한 오디오 개요 기능과 향후 도입될 개인화된 목소리 기능이 AI 오디오 스타트업 시장에 미칠 파급력을 분석합니다. ElevenLabs와 Podcastle 같은 기업들이 직면할 위협과 Google의 생태계 확장성을 다룹니다.
핵심 포인트
- NotebookLM의 소스 근거(grounding) 기술은 환각 문제를 해결함
- 개인화된 목소리 기능은 단순 요약을 넘어 콘텐츠 발행 도구로 진화함
- Google의 기능 추가는 ElevenLabs 등 보이스 클로닝 스타트업에 위협적임
- AI 오디오 시장의 경쟁 구도가 제품 중심에서 플랫폼 기능으로 변화 중
나는 무언가를 발행하기 전, 공격 레이어(attack layer)로서 NotebookLM을 사용한다.
요약을 위해서가 아니다. 연구를 위해서도 아니다. 나는 내 초안을 업로드하고, 오디오 개요(audio overview)를 실행한 뒤, 두 명의 AI 호스트가 내 논리를 심문하는 것을 듣는다. 만약 나레이션이 빈틈을 드러낸다면 — 설득력이 떨어지는 주장이나, 갈피를 못 잡고 방황하는 섹션 같은 것들 — 나는 기사가 공개되기 전에 돌아가서 그것을 수정한다.
이 방식은 효과가 있다. 다시 읽어보는 것보다 낫고, 동료에게 물어보는 것보다 낫다. 나의 가정을 공유하지 않는 무언가가 내 논리를 다시 말해주는 것을 듣는 그 거리감은 진정으로 유용하다.
한 가지가 빠져 있다.
목소리. 나의 목소리 말이다.
NotebookLM이 이미 하고 있는 것
어려운 문제들은 이미 해결되었다.
NotebookLM은 PDF, Google Docs, 오디오 파일, YouTube 링크, 그리고 웹 URL을 흡수한다. 이 서비스는 나레이션을 사용자의 소스에 근거(grounding)시키며, 그 범위를 벗어난 환각(hallucination)을 일으키지 않는다. 단순한 텍스트 음성 변환(text-to-speech)의 나열이 아니라, 실제로 대화처럼 들리는 일관된 두 명의 호스트 오디오를 생성한다. 또한 긴 문서 전반에 걸쳐 소스의 충실도(source fidelity)를 유지한다.
이것들은 작은 엔지니어링 문제가 아니다. 소스 근거 설정(Source grounding)만으로도 모든 일반적인 AI 요약기(AI summarizer)를 괴롭히는 실패 유형 전체를 제거한다. 두 호스트가 서로 반박하고, 말을 가로막고, 방향을 전환하는 방식과 같은 나레이션의 일관성(coherence)을 구축하는 데는 상당한 작업이 필요했다.
대부분의 사람들은 연구 논문을 요약하는 데 이를 사용한다. 어떤 이들은 회의록을 위해 사용한다. 나는 논리가 공개되기 전, 이를 스트레스 테스트(stress-test)하는 데 사용한다.
아무도 이야기하지 않는 사실: Google은 이미 어려운 부분을 해결했다.
모든 것을 바꾸는 단 하나의 기능
개인화된 목소리(Personalized voice).
팟캐스트 호스트의 목소리를 복제하는 것이 아니다. 일반적인 영국식 나레이터도 아니다. 바로 당신의 목소리다. 당신의 녹음 데이터로 학습되고, 당신의 리듬(cadence)에 맞춰지며, 당신의 콘텐츠에 적용되는 목소리 말이다.
Google이 그 기능을 출시하는 순간, 세 가지 일이 동시에 일어난다:
오디오 개요 (Audio overviews)가 더 이상 누군가 당신의 글을 대신 읽어주는 것처럼 들리지 않게 된다. 그것은 당신의 목소리처럼 들리며, 당신의 어조 (register)로 당신의 논거를 제시하기 시작한다. 사용 사례는 "이것을 요약해줘"에서 "이것을 발행해줘"로 확장된다. 그리고 AI 기반 개인용 오디오를 판매하는 모든 스타트업은 Google이 이미 소유하고 있는 제품 내의 기능 비교 대상이 되어버린다.
카운트다운 타이머 (The countdown timers)
이름을 붙여보자.
ElevenLabs는 진정으로 인상적인 보이스 클로닝 (voice cloning) 제품을 만들었다. 품질은 진짜다. API는 문서화가 잘 되어 있다. 개발자들이 이를 사용한다. 하지만 ElevenLabs의 핵심 가치 제안(value proposition)인 "어디서든 당신의 목소리를"은 Google이 NotebookLM의 토글 (toggle) 기능으로 출시할 바로 그 기능이다. 새로운 제품이 아니라, 설정 페이지 하나로 끝날 일이다.
Podcastle은 보이스 클로닝과 오디오 클린업 (audio cleanup)을 포함한 AI 기반 팟캐스트 제작 서비스를 판매한다. 이는 스튜디오 없이 전문적인 오디오를 원하는 크리에이터들을 겨냥한 프로슈머 (prosumer) 도구다. 하지만 이 또한 음성 레이어 (voice layer)를 제외하면 NotebookLM이 이미 구조적으로 수행하고 있는 기능들의 집합일 뿐이다.
Wondercraft는 텍스트 콘텐츠를 오디오로 변환하는 AI 오디오 플랫폼이다. 좋은 제품이다. NotebookLM의 아키텍처 (architecture)와 직접적으로 겹친다. 제품 업데이트 한 번이면 불필요해질 수준이다.
Descript는 이 그룹 중 가장 방어력이 높다. 비디오 편집 레이어, 타임라인, 협업 워크플로우 (collaboration workflow)를 갖추고 있기 때문이다. 단순히 오디오 생성 도구만은 아니다. 하지만 이들의 AI 음성 레이어인 "Overdub"은 Google이 NotebookLM에 개인용 목소리 기능을 출시하는 날 바로 소음 (noise)이 되어버릴 바로 그 기능이다.
이들 중 나쁜 제품은 하나도 없다. 그것이 논점이 아니다.
논점은 이들의 해자 (moat)가 Google이 아직 우선순위를 두지 않고 비워둔 틈새라는 점이다. 그것은 경쟁 우위가 아니라 카운트다운 타이머다.
Google 세금 (The Google tax)
이 패턴에는 이름이 있다. 충분히 오래 활동해 온 개발자라면 이를 알고 있다.
Google Workspace에는 작업 관리자가 있다. Tasks라고 불린다. 괜찮은 수준이다. Todoist, TickTick, Things 3가 모두 존재하는 이유는 Tasks가 '괜찮긴 하지만 훌륭하지는 않기' 때문이며, 그 "괜찮은" 수준이 기업을 세울 수 있을 만큼 충분히 큰 틈을 남겨두었기 때문이다.
Google Calendar는 일정 관리를 처리합니다. Calendly가 30억 달러 규모의 기업이 된 이유는 Calendar가 한 가지 특정한 기능, 즉 이메일 스레드 없이 다른 사람들이 내 캘린더에 시간을 예약할 수 있게 하는 기능을 수행하지 못했기 때문입니다. 단 하나의 기능이 기업 전체를 만들었습니다.
Google Keep이 존재합니다. Notion도 존재합니다. 중복되는 영역은 실제로 존재하며, 그 간극은 충분히 유의미했습니다.
이들 중 일부는 살아남습니다. Calendly가 살아남은 이유는 예약 워크플로우 (workflow)가 Calendar가 기본적으로 수행하는 기능과 진정으로 구별되기 때문입니다. Notion이 살아남은 이유는 Google이 그 간극을 메우기 전에 문서, 데이터베이스, 위키 (wikis) 등으로 영역을 확장했기 때문입니다.
AI 오디오 스타트업들에게는 그런 활주로 (runway)가 없습니다. 그들은 NotebookLM의 인접한 영역에서 구축하고 있는 것이 아닙니다. 그들은 NotebookLM 내부에서 구축하고 있습니다. 그들의 전체 가치 제안 (value proposition)은 NotebookLM이 이미 수행하고 있는 기능과 Google이 아직 출시하지 않은 단 하나의 기능 사이의 간극에 놓여 있습니다.
Google이 다음 분기에 이를 출시하지 않을 가능성이 높은 이유
타임라인에 대해 솔직해집시다.
Google은 이를 공격적으로 추진하고 있지 않습니다. NotebookLM은 Google Labs 제품입니다. 인상적이고 진정으로 유용하지만, 분명히 회사의 주요 초점은 아닙니다. 해당 팀은 광범위한 Gemini 추진력에 비해 규모가 작습니다. 개인 음성 복제 (voice cloning)는 딥페이크 (deepfakes), 동의, 책임 문제와 같은 실제적인 규제 및 윤리적 부담을 안고 있으며, 이는 스타트업은 무시할 수 있는 방식으로 대기업의 발목을 잡습니다.
AI 오디오 스타트업들에게는 18개월의 시간이 있을지도 모릅니다. 어쩌면 24개월일 수도 있습니다.
하지만 플랫폼의 간극을 기반으로 구축할 때 중요한 점은 이것입니다. 시계는 Google이 그것을 출시할지 여부에 맞춰 돌아가는 것이 아닙니다. 시계는 시장이 Google이 그것을 출시할 것이라고 믿을지 여부에 맞춰 돌아가고 있습니다. 그 믿음이 형성되는 순간 — Google I/O 데모, 유출, 제품 페이지 등 — AI 오디오 개인화 스타트업을 위한 자금 조달 환경은 하룻밤 사이에 바뀝니다.
그들은 사냥당하고 있는 것이 아닙니다. 무시당하고 있는 것입니다.
Google에게 무시당한다는 것은 그 자체로 일종의 사형 선고입니다.
이것이 개발자들에게 실제로 의미하는 바
만약 당신이 이 분야에서 제품을 만들고 있다면, 질문은 "우리가 ElevenLabs보다 더 나은 음성 복제 (voice cloning) 제품을 만들 수 있을까?"가 아닙니다. 질문은 다음과 같아야 합니다: "이 제품이 Google I/O 키노트 발표 이후에도 살아남을 수 있는 기능을 갖추고 있는가?"
Google Tax (Google 세금)에서 살아남는 기업들은 그 격차가 닫히기 전에 영역을 확장함으로써 살아남습니다. Calendly는 단순한 예약 링크가 아니라 리마인더, 라우팅, 통합 기능을 갖춘 스케줄링 플랫폼이 됨으로써 살아남았습니다. Notion은 단순한 노트 필기 도구가 아니라 워크스페이스 (workspace)가 됨으로써 살아남았습니다.
살아남을 AI 오디오 스타트업은 Google이 소유하지 않은 워크플로 (workflow)에 음성을 내재화하는 기업들이 될 것입니다. 영상 제작 파이프라인 (Video production pipelines), 팟캐스트 배포, 라이브 오디오, 언어 학습 등이 그 예입니다. 즉, Google이 건드릴 이유가 없는 워크플로 깊숙이 파고드는 기업들입니다.
"당신의 목소리를 입힌 NotebookLM"을 만들고 있는 기업들은 카운트다운 타이머를 작동시키고 있는 것과 다름없습니다.
저는 여전히 콘텐츠를 발행할 때마다 NotebookLM을 사용합니다. 저는 여전히 요리를 하는 동안 두 명의 AI 호스트가 제 논리를 심문하는 것을 듣습니다.
단지 저는 다른 사람의 목소리로 그것을 할 뿐입니다.
지금은 말이죠.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기