Twelve Labs, 비디오 AI가 챗봇과 경쟁하는 가운데 1억 달러 투자 유치
요약
비디오 AI 스타트업 Twelve Labs가 NEA와 NAVER Ventures 등이 참여한 1억 달러 규모의 Series B 투자를 유치했습니다. 이번 투자금은 비디오 인지 시스템인 Marengo와 Pegasus 모델을 고도화하고 비디오 검색 인프라를 확장하는 데 사용될 예정입니다.
핵심 포인트
- Twelve Labs, 1억 달러 규모의 Series B 투자 유치 성공
- 비디오를 초 단위로 검색 및 추론 가능한 인프라 구축 목표
- Marengo(인지) 및 Pegasus(추론) 모델 고도화에 집중
- 단순 영상 생성이 아닌 기업용 비디오 검색 인프라 지향
Twelve Labs의 비디오 AI가 1억 달러를 유치했습니다. 이는 차세대 AI 인터페이스가 채팅창이 아닌, 검색 가능한 영상(searchable footage)이 될 것이라는 투자자들의 베팅 때문입니다. Twelve Labs는 7월 1일 수요일, 비디오를 이해하고, 인덱싱(indexing)하며, 검색(retrieval)하고, 추론(reasoning)할 수 있는 모델에 대한 작업을 확장하기 위해 1억 달러 규모의 Series B 투자를 유치했다고 PYMNTS에 따르면 밝혔습니다.
TwelveLabs의 자체 발표에 따르면, 이번 라운드는 NEA와 NAVER Ventures가 공동 주도했으며, Amazon, Radical Ventures, Korea Investment Partners, Index Ventures, Quadrille Capital, 그리고 Red Bull Ventures가 참여했습니다. 회사는 제공된 자료에서 기업 가치(valuation)를 공개하지 않았습니다.
“5년 전, 우리는 단순한 관찰로 시작했습니다: 세상은 텍스트로 일어나지 않습니다. 움직임(motion) 속에서 일어납니다,”라고 공동 창업자이자 CEO인 Jae Lee는 작성했습니다.
Twelve Labs, 비디오 AI 플랫폼 확장을 위해 1억 달러 확보
Twelve Labs 비디오 AI의 핵심 논제는 명확합니다: 텍스트는 프로그래밍 가능해졌지만, 비디오는 여전히 기계로부터 대부분 격리되어 있다는 것입니다. Lee는 대부분의 AI 시스템이 여전히 현실에 대한 압축된 설명(compressed descriptions)을 바탕으로 작동하는 반면, 비디오는 움직임, 소리, 사물, 음성, 맥락(context), 타이밍과 같은 가공되지 않은 시퀀스(raw sequence)를 담고 있다고 주장합니다.
TwelveLabs는 이번 자금 조달이 핵심 비디오 모델인 Marengo와 Pegasus를 발전시키고, 이들이 **비디오 인지 시스템 (Video Cognition System)**이라 부르는 것을 확장하는 데 도움이 될 것이라고 밝혔습니다. 회사의 프레임워크에 따르면, 이 시스템은 비디오 아카이브를 단순히 파일 이름, 폴더, 캡션(captions) 또는 전사(transcripts) 수준이 아니라, 특정 초(seconds) 단위 수준에서 검색 가능하게 만드는 것을 목표로 합니다.
해당 회사의 블로그는 세 가지 기술적 계층인 인지 (perception), 메모리 (memory), 그리고 **추론 (reasoning)**을 설명합니다. Marengo는 시각, 오디오, 음성 및 화면상의 텍스트 신호를 검색 가능한 표현(representation)으로 매핑합니다. 회사 측에 따르면, Pegasus는 이러한 표현들을 설명, 답변, 요약, 장면 경계(scene boundaries), 엔티티(entities), 시간적 세그먼트(temporal segments) 및 의미론적 문맥(semantic context)으로 변환합니다.
이러한 아키텍처가 중요한 이유는 Twelve Labs가 이번 발표에서 소비자용 비디오 생성기(video generator)를 제안하는 것이 아니기 때문입니다. 이들이 제안하는 것은 효율적으로 쿼리(query)할 수 없는 방대한 영상 자료를 보유한 기업들을 위한 인프라입니다. PYMNTS는 이번 투자 유치를 비디오 생성기, AI 네이티브 검색 제품, 코딩 어시스턴트(coding assistants), 컴패니언 앱(companion apps)을 포함한 더 넓은 AI 네이티브 소프트웨어 카테고리의 흐름과 연결 지었습니다.
| Twelve Labs의 주장 | 실질적인 의미 |
|---|---|
| 비디오는 여전히 기계에게 "암흑 물질(dark matter)"이다 | 대규모 아카이브가 존재하지만, 그 콘텐츠의 상당 부분은 의미론적(semantically)으로 검색하기 어렵다 |
| ... |
이번 자금 조달은 비디오를 AI가 검색 가능하고 유용하게 만들기 위한 경쟁을 가속화한다
이번 투자 유치는 Twelve Labs의 주장을 자본이 투입된 시험대로 전환합니다. 즉, 텍스트가 이미 그러하듯 비디오도 AI 에이전트(AI agents)를 위한 일급 입력(first-class input)이 될 수 있는가 하는 점입니다. Lee는 "지난 10년간의 AI는 텍스트를 프로그래밍 가능하게 만들었지만," 비디오는 아직 동일한 변화를 겪지 못했다고 기술했습니다.
"세계의 비디오는 여전히 기계에게 대부분 암흑 물질과 같습니다,"라고 Lee는 말하며, 비디오가 "아카이브... 드론, 그리고 위성"과 같은 곳에 존재하며, 여전히 대부분 "파일명, 폴더, 캡션, 전사(transcripts), 그리고 인간의 기억"을 통해 접근되고 있다고 언급했습니다.
회사는 비디오가 전 세계 데이터의 "90% 이상"을 차지한다고 밝히고 있으며, 이는 시리즈 B(Series B) 보도 자료에서도 사용된 수치입니다. 이는 회사의 주장이나, 이 베팅의 규모를 설명해 줍니다. 만약 그 영상의 아주 일부라도 AI 시스템에 의해 검색 가능하고 사용 가능해진다면, 비디오 검색은 단순한 기능(feature)을 넘어 기업을 위한 워크플로 계층(workflow layer)이 될 것입니다.
확정된 수직 시장(verticals)은 구체적입니다. Twelve Labs는 미디어 및 엔터테인먼트 (media and entertainment) 분야에서 견인력(traction)을 확보했으며, 정부와의 협업을 포함한 **공공 부문 (public sector)**으로 확장하고 있다고 밝혔습니다. 또한 회사의 보도 자료는 광고 (advertising), 보안 (security), 스포츠 (sports), 그리고 **자동차 (automotive)**를 자사 플랫폼의 수요를 견인하는 분야로 명시했습니다.
가장 강력한 반론은 비디오 AI를 실제 운영(operationalize)하기가 어렵다는 점입니다. 회사 측은 무차별 대입(brute-force) 방식이 양방향 모두에서 실패한다고 말합니다. 즉, 전체 비디오 라이브러리를 모델의 컨텍스트 윈도우(context window)에 입력하는 방식은 기업이 정당화할 수 없는 수준의 기술과 컴퓨팅 자원을 요구하며, 반대로 비디오를 정적인 데이터베이스로 변환하는 방식은 지능 없는 구조만을 생성할 뿐입니다. Twelve Labs는 자사의 비디오 인지 시스템(Video Cognition System)이 바로 이 기술적 격차를 메우기 위해 구축되었다고 설명합니다.
Amazon의 역할은 또 다른 층위를 더합니다. 제공된 자료에 따르면 Amazon이 이번 투자 라운드에 참여했으며, 추가적인 회사 자료에서는 AWS를 Twelve Labs의 선호 클라우드 제공업체로 설명하며, 모델들이 Amazon Bedrock 및 Twelve Labs 자체 API를 통해 배포된다고 밝히고 있습니다. 이는 스타트업의 제품 스토리와 인프라 선택을 연결하며, 이는 우리가 Runaway AI Spending Forces a Return to Cloud Controls에서 다루었던 압박 지점이기도 합니다.
소비자 측면 또한 관련이 있지만, 오직 맥락으로서만 유효합니다. PYMNTS는 이전에 비디오 생성기를 AI 컴패니언(AI companions), 대화형 검색(conversational search), 프롬프트 기반 코딩 도구와 함께 새로운 AI 앱 붐의 일부로 설명한 바 있습니다. 이러한 변화는 AI가 사용자가 정보를 발견하고, 신뢰하며, 행동하는 방식을 바꾸는 인접 소프트웨어 카테고리에서도 관찰될 수 있으며, 이는 Shopify Trustpilot Deal Puts AI-Era Trust on the Line에서 제기된 문제와도 맥을 같이 합니다.
Twelve Labs는 이제 비디오 AI의 열풍을 기업의 채택으로 전환해야 합니다
이번 투자 유치는 TwelveLabs가 구축을 위한 여유를 제공하지만, 다음 증명 지점은 어휘력이 아닌 채택 (adoption)입니다. 비디오 초지능 (Video Superintelligence) 및 **비디오 인지 시스템 (Video Cognition System)**과 같은 용어들은 야심 차게 들립니다. 기업 구매자들은 시스템이 적절한 순간을 찾아내는지, 근거를 바탕으로 답변하는지, 무질서한 아카이브 전반에서 작동하는지, 그리고 합리적인 비용으로 이를 수행하는지에 관심을 가질 것입니다.
회사의 자체 로드맵도 이러한 시험을 가리키고 있습니다. 이 자금은 Marengo와 Pegasus를 발전시키고, 비디오 인지 시스템 (Video Cognition System)을 주요 비디오 아카이브로 확장하며, 팀을 확대하는 데 사용될 것이라고 밝히고 있습니다. 또한 연구원, 엔지니어, 제품 빌더 및 운영 인력을 채용하고 있다고 언급했습니다.
TwelveLabs는 이미 모델을 넘어 애플리케이션 단계로 나아갔습니다. 회사의 보도 자료에 따르면, 통합 작업 없이 크리에이터, 운영자 및 의사 결정권자의 손에 시스템을 직접 전달하려는 노력의 일환으로 첫 번째 애플리케이션 계층 제품인 Rodeo를 최근 출시했습니다.
남겨진 질문은 상업적인 부분입니다. 제공된 자료에는 매출, 고객 수, 기업 가치, 배포 규모 또는 가격 책정이 공개되지 않았습니다. 또한 최신 모델에 대한 독립적인 벤치마크 결과도 보여주지 않습니다. 따라서 투자자와 고객들은 Twelve Labs의 비디오 AI가 인상적인 검색 데모를 넘어 일상적인 프로덕션 사용으로 넘어갈 수 있다는 증거를 기다리고 있습니다.
실질적인 지표는 명확합니다:
- 배포 (Deployments): 미디어, 공공 부문, 보안, 스포츠, 광고 또는 자동차 분야에서의 기업용 출시 사례.
- 개발자 채택 (Developer uptake): TwelveLabs의 API 및 Amazon Bedrock을 통한 사용량.
- 모델 신뢰성 (Model reliability): 길고, 노이즈가 많으며, 다수의 화자와 다수의 장면이 포함된 푸티지 전반에서의 정확도.
- 워크플로우 깊이 (Workflow depth): 고객이 비디오 검색을 단순한 신기한 기능이 아닌 핵심 운영 도구로 취급하는지 여부.
- 인프라 적합성 (Infrastructure fit): AWS와의 관계가 비용 부담 없이 워크로드를 확장하는 데 도움이 되는지 여부.
Twelve Labs의 판단이 옳다면, 비디오는 텍스트가 보존할 수 없는 정보를 담고 있기 때문에 AI 인프라의 차세대 주요 격전지 중 하나가 될 것입니다. 만약 틀렸다면, 이 1억 달러는 뼈아픈 교훈을 얻기 위한 시간을 벌어주는 셈이 될 것입니다. 즉, 기업들이 검색 가능한 비디오를 원할 수는 있지만, 그 답변이 신뢰할 수 있고, 근거가 확실하며(grounded), 수동 검토를 대체할 수 있을 만큼 충분히 빠를 때에만 비용을 지불할 것이라는 사실입니다.
결론 (The Bottom Line)
- 1억 달러 규모의 투자 유치는 비디오가 주요 AI 인터페이스가 될 수 있다는 투자자들의 강력한 확신을 나타냅니다.
- Twelve Labs는 방대한 비디오 아카이브를 정확한 순간에 검색 가능하고 이해할 수 있도록 만드는 어려운 문제를 목표로 하고 있습니다.
- Amazon, NEA, NAVER Ventures 등의 지원은 이 스타트업이 비디오 AI 모델을 더 빠르게 확장하는 데 도움이 될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기