언리얼테크요약2026. 05. 15. 11:09

말하면서 듣는다… AI 글래스, 앱 시장 재편되나 | 미라 무라티가 꺼낸 다음 경쟁축

요약

OpenAI의 전 CTO이자 '챗GPT의 어머니'로 불리는 미라 무라티(Mira Murati)가 설립한 Thinking Machines Lab에서 새로운 인터랙션 모델을 발표하며 AI 시장에 큰 변화를 예고하고 있습니다. 기존 AI 모델들이 사용자의 행동이나 대화 흐름을 실시간으로 인지하지 못하는 한계를 극복하여, 사용자가 말을 하거나 움직이는 순간순간의 미묘한 정보까지 포착해 자연스럽게 반응하는 것이 핵심입니다. 이는 단순한 챗봇 기능을 넘어, AI와 인간이 협업하는 방식 자체를 근본적으로 재편할 잠재력을 가지고 있습니다.

핵심 포인트

미라 무라티가 설립한 Thinking Machines Lab에서 혁신적인 인터랙션 모델을 공개함.
기존 AI의 한계(단일 스레드 경험, 실시간 행동 인지 불가)를 극복하고 사용자의 모든 상황 변화에 반응할 수 있게 됨.
AI가 스스로 언제 개입해야 할지 판단하며 대화 흐름과 비언어적 신호까지 포착하는 능력을 보여줌.
이 기술은 단순한 AI 모델 개선을 넘어, AI와 인간의 협업 방식 전반을 재정립할 잠재력을 가짐.

Video: 말하면서 듣는다… AI 글래스, 앱 시장 재편되나 | 미라 무라티가 꺼낸 다음 경쟁축
Channel: 안될공학 - IT 테크 신기술
Duration: 10m 50s
Language: ko
Transcript:
자 이 영상 같은 경우에도 데모를 좀 보시면요. 갑자기 저렇거든요. 네 좀 이게 웃겼는데. 그냥 이제 그 순간순간 갑자기 탁 하는 것도 캐치를 한다는 얘기를 보여주는 거예요. 갑자기 움직여도. 네 여러분 반갑습니다. 에러입니다. 오픈 AI의 전 CTO였죠. 캐치 PT의 어머니라고 불리는 이 미라 무라티가 그때 오픈 AI 쿠데타 사건 이후로 나온 다음에 Thinking Machines라고 하는 새로운 기업을 열었습니다. 근데 이 기업에서 지금 좀 심상치 않은 AI 모델을 발표를 했거든요. 현재 모든 AI들의 기본 베이스가 챗봇 형태이지 않습니까. 근데 실시간으로 통화할 수 있는 그런데 기존에 있던 어떤 라이브 스트리밍으로 하는 것과는 애초에 구조적으로 다른 걸 제안을 했기 때문에 이게 사실 단순히 AI 모델만의 문제가 아니라 그걸 기반으로 간다면은 이 AI 모델을 사용하는 모든 앱들이 그렇게 재편이 될 가능성이 있는 굉장히 큰 사건이라고 보입니다. 물론 성공을 해야 되는 건데 이거 내용에 대해서 좀 알아주실 필요가 있을 것 같아서 한번 정리해보도록 하겠습니다. 우선 많은 분들이 아시겠지만 이 미라 무라티는 오픈 AI의 전 CTO라고 말씀을 드렸죠. 기술 총 책임자입니다. 그러니까 챗지 PT나 달리 같은 이런 오픈 AI의 핵심 제품 개발을 실제로 이끌었던 사람이었기 때문에 챗지 PT의 어머니다. 뭐 이렇게 얘기를 많이 했었죠. 근데 2023년 샘홀트먼 해임 사태 때 잠깐 오픈 AI의 임시 CEO를 잠깐 맡기도 했었죠. 그러다가 결국은 2024년 오픈 AI를 떠난 뒤에 2025년 2월 그러니까 작년 2월이죠. 지금 이제 1년 조금 더 지났는데 Thinking Machines Lab이라고 하는 것을 설립을 합니다. 그래서 오픈 AI, 메타, 미스트랄 같은 어떤 주요 AI 기업 출신들의 연구자들을 쭉 영입해가지고 이번에 나온 성과가 바로 요거라고 보시면 되겠는데요. 기본적으로 미라 무라티가 하려고 하는 거는 단순히 그 AI 모델이나 챗봇 해사라기보다는 AI와 사람이 협업하는 방식 자체를 바꾸려고 하고 있습니다. 요게 좀 굉장히 재밌는 부분인데 원래 첫 제품으로는 이 모델 파인 튜닝 도구로서 Tinker 라는 걸 공개를 했었거든요. 근데 최근에는 사람이 직접 말을 하고 보는 와중에 실시간으로 반응하는 인터랙션 모델을 공개해서 지금 주목을 받고 있습니다. 그러면 사실 지금 챗집 PD 보이스 같은 경우나 뭐 제미나의 라이브 같은 이런 것과 뭐가 다른지 사실 좀 뭐 차이가 없는 거 아니냐 이렇게 볼 수가 있는데 애초에 접근 방식 자체가 달라서 훨씬 더 빨리 반응할 수 있도록 그러니까 보이스뿐만 아니라 보는 것도 굉장히 빠르게 해석하고 내가 특별히 뭔가 지시를 하지 않더라도 바로 개입해서 대응하는 방식이 굉장히 좋아졌다고 하거든요. 그런 관점에서 보면 이미 시험도 잘 보고 코딩도 잘하고 뭐 지금 AI 안 쓰고 작업하기가 쉽지 않은 세상이 온 상황에서 현재의 구조 그대로 갔을 때는 내가 말이 끝나야 반응을 한다던가 AI가 말하는 동안에 새 정보를 못 받아들이는 구조를 가지고 있거든요. 기본적으로 그런 구조에서 최대한 뭔가 빨리 실시간성으로 대답을 하는 형태로 얘기를 할 수 있게끔 그래서 예전에 제미나의 라이브도 중간에 이렇게 말을 끊고 대화를 해도 끼어들고 해도 바로 반응할 수 있다고 해서 사람들이 굉장히 놀라고 했었는데 그것도 이제 평범해졌잖아요. 근데 중요한 거는 이렇게 말하고 있는 중간에 아 그게 아니라 하면서 끼어들면 흐름이 깨지면서 이 정보와 지능의 대답 정도가 좀 약간 약해지는데 미라 무라티가 지금 이번에 하려고 하는 거는 이런 부분들을 좀 제대로 잘 해보겠다라고 얘기를 하는 거죠. 지금 보시는 게 Thinking Machines 홈페이지가 돼 있는데 굉장히 간단하게 돼 있죠. 그러면서 새롭게 인터랙션 모델에 대한 내용들이 여기 쫙 나와 있는데 딱딱한 소식이죠. 그러면서 처음 얘기하는 게 바로 이 컬래버레이션 바틀렉이라고 하는 부분들을 짚고 넘어갑니다. 이게 뭘 얘기를 하고 왔느냐. 이걸 보세요. 오늘 날의 모델은 단일 스레드에서 현실을 경험합니다. 이게 이 포인트입니다. 모델은 사용자가 무엇을 하고 있는지 어떻게 하고 있는지 전혀 인지하지 못한 채로 기다린다. 이 포인트로 지금 파고드는 거죠. 그러니까 모델이 생성하는 동안에는 새로운 능력을 못 받는다. 이게 대부분의 AI 모델의 문제점인데 우리는 그거를 거의 해결했다라고 지금 발표한 거라서 놀라운 거예요. 지금 보시면 이렇게 여러 가지 데모들이 있거든요. 여기서 좀 인상적인 것들을 좀 보면은 자 보세요. 이렇게 자유롭게 대화를 하고 있습니다. 답변도 굉장히 빠르고 하고 있는데 여기서 바로 대답을 하는 게 아니라 사용자가 커피를 마시고 이렇게 하니까 일단 기다리는 거죠. 조용히 계속 말을 이어가면서 하는 것들을 인지하고 있다는 겁니다. 그러니까 AI가 언제 답해야 되는지를 스스로 판단을 하고 있다는 거죠. 실제로 사용자를 보고 들으면서 재밌는 게 여기 보면 There is no separate dialogue management component 별도의 뭔가 이 대화를 컨트롤하기 위한 장치가 있는 게 아니라 그냥 AI 모델을 돌리는 겁니다. 라고 얘기한다는 거죠. 이 영상 같은 경우에도 데모를 좀 보시면요. 갑자기 저러거든요. 네 좀 이게 웃겼는데 그냥 이제 그 순간순간 갑자기 탁 하는 것도 캐치를 한다는 얘기를 보여주는 거예요. 갑자기 움직여도 이게 왜냐하면 기존의 AI 모델들이 이 프레임 프레임으로 이미지를 받아들일 때 그 프레임과 프레임 사이의 변화에 대해서 좀 인지를 잘 못할 수도 있잖아요. 똑바로 하나 똑바로 하나 뭐 표정이라든가 이런 것들 계속 인지를 하면서 그 순간순간 정보를 받아들인다는 걸 보여준다는 겁니다. 자 이건 되게 재밌는 게 아예 말을 AI가 끊어버렸습니다. 자 들어보세요. 왜이냐고 이러면서 야 그러지마 말하지마 이런 거 나오거든요. 또 새로운 것도 있습니다. 또 말을 끊고 야 그만 말해야 이러거든요. 자 이렇게 계속 인지를 하고 있으니까 얘가 이상한 소리 하면은 딱 멈춰서 혹은 제 하나의 게 있으면 먼저 멈춰서 얘기할 수 있다는 거죠. 핵심은 이런 거죠. 언제 답해야 될지를 자기가 계속 들으면서 인지를 하면서 사용자가 지금 생각 중인지 말을 끝내봐야 할 건지 아니면은 이상한 소리 하면 내가 끊어야 될지를 이 모델이 안 달하는 겁니다. 이 타이밍을 안 달하는 거죠. 기존에는 어떤 말이 끝났다는 걸 감지하는 컴포넌트를 넣거나 그 중간에 인터럽트를 해야겠다는 로직을 따로 넣었어야 되는데 이거를 실시간으로 받아들이면서 상호작용할 수 있도록 하는 거를 모델 안으로 넣겠다는 접근입니다. 대체 그게 어떻게 가능해요? 라고 보면은 기존보다 이 타이밍 관리를 굉장히 짧게 쪼갠다는 거죠. 이벤빌리 세컨드라고 하는 굉장히 짧은 턴으로 쪼개서 하겠다는 건데 기본적으로 턴 베이스라고 하는 것이 입력이 있고 그 다음에 아웃풋이 있고 입력이 있고 그 다음에 아웃풋이 있고 이렇게 하다 보니까 어쩔 수 없이 이 실시간성이라든가 현재 하고 있는 것들을 받으리 힘든 부분들이 있었죠. 그래서 기본적인 이 구조를 가져가긴 하는데 비디오와 오디오 이런 것들을 마이크로톤 베이스로 타임얼라인드를 해서 모델이 인지를 하고 하는 형태로 간다는 겁니다. 이게 왜 중요할까요? 사람의 말이 그냥 말로만 되는 게 아니잖아요. 제스처도 있고 말이 겹칠 수도 있고 내가 몸을 본다라거나 화면도 변화된다거나 이런 여러 가지 정보들이 있는데 사실 기존에 있는 것들은 그런 것들을 잘 판단하기가 어려웠고 판단한다 하더라도 실시간성으로 스트리밍 하면서 가져가기가 어려웠다는 거죠. 근데 인터랙션 모델은 이 시간 흐름 자체를 문맹으로 쓰다 보니까 거기에 대해서 판단이 훨씬 더 높아진다고 주장을 하고 있는 것이 되겠습니다. 이것도 굉장히 신기했는데 동시에 얘기를 하는 거예요. AI 모델이. 지금 들어보세요. 지금 들어보세요. 내가 말하는 대로 그대로 한다고 하는데 계속 동시에 얘기하는 거 들리십니까? 이게 되면 진짜로 실시간 통역이 된다라는 거죠. 상대 말을 멈춘다거나 중간에 말을 고친다거나 이런 걸 안 한다는 거예요. 정확하게 지금 실시간 통역사들의 하는 행동들을 보이고 있는 거죠. 그래서 대화로 자연스럽게 얘기를 하면서 이런 식으로 금방 만들 수도 있는 거고 내 모습을 보면서 판단을 하면서 뭔가 얘기를 할 수도 있는 거고 동시에 막 얘기를 해요. 그냥. 어떻게 보면 말로 이제 일을 하는 시대가 온 거죠. 그래서 사실 오픈 AI와 구글, 엔트로픽이 이렇게 계속 경쟁을 하고 있는 상황에서 이 프론티어 AI 경쟁 대부분 축이 어려운 문제를 푼다라거나 컨텍스트를 다룬다거나 리즈닝, 도구 이런 얘기들을 많이 했었잖아요. 누가 더 자율적인 에이전트를 만드는가. 근데 여기에 대한 판이 좀 약간 바뀔 수도 있겠다라는 생각이 듭니다. 애초에 시작을 텍스트에서 출발을 했기 때문에 나중에 이제 실시간성을 이렇게 하는 기능을 추가를 한 형태인데 처음부터 텍스트에서 출발하는 게 아니라 실시간 시간 축을 시작으로 하다 보니까 조금 더 이게 개선되는 부분들이 있을 수 있겠죠. 넉넉한 인터랙션 모델이 만약에 보편화가 된다라고 하면은 우리가 만드는 앱들의 구조가 바뀔 수 있다라는 거죠. 사용자가 뭐 그냥 쓰고 있으면은 뭐 카메라도 보고 뭐 이렇게 하면은 특히 지금 글래스 같은 것들 이런 거 하면은 옆에서 계속 보고 듣고 있다가 필요할 때만 끼어드는 형태로 한다라거나 복잡한 작업은 백그라운 모델이 처리를 하고 결과가 나오면은 자연스럽게 끼어드는 마치 이 시스템1, 시스템2로 나눠가지고 휴머노이드가 이렇게 각각의 작업을 하듯이 하는 것도 볼 수가 있겠죠. 그래서 사실 가장 기대가 되는 부분이 스마트 글래스, AI 글래스 쪽입니다. AI 글래스 쪽으로 가면은 가장 큰 수혜를 받을 수 있을 거고 뭔가 같이 계약을 하는 그런 회복 형태가 나올 것 같아요. 왜냐하면은 그야말로 이거는 영상으로 보면서 음성을 들으면서 이런 것들을 바로바로 처리하는 것도 중요하고 중간에 그 인터랙션이 제대로 되는 것들이 굉장히 중요한 모델이잖아요. 이 시점에서 Thinking Machines, Mira Murati가 이러한 모델을 발표했다라는 게 굉장히 의미심장하지 않습니까? 저 다음 주에 구글 아이오 가거든요. 그래서 미국에 가서 직접 아마 새로운 AI 글래스 내용들을 듣게 될 텐데 올해 메타뿐만 아니라 애플도 글래스를 출시한다는 얘기가 있고 이런 상황이다 보니까 이런 쪽에서 이러한 형태의 모델들이 중요해질 거다라고 볼 수가 있겠고 구구 전주에 이런 내용들을 한 거 보면은 또 이제 경제를 하는 것으로 보이기도 하고 뭐 이제 AI 글래스 뿐만이 아니라 로봇이나 휴머노이드 쪽에서도 이런 것들이 많이 도움이 될 수가 있겠죠. 그래서 이게 그냥 이제 앞으로 계속 말씀드린 게 제가 AI에서 인프라 경쟁으로 넘어간다라는 것도 있는데 그 인프라에 해당하는 것들을 확장하는 그 브릿지들 있잖아요. 그것들을 보면은 결국 그 인터페이스를 누가 강하게 가졌느냐 이런 쪽에서도 경쟁이 시작됐다고 볼 수가 있겠습니다. 채팅창에 있으면은 그냥 검색 보조인 거고 AI를 쓰더라도 이어폰 안에 있으면 그냥 실시간 통역사잖아요. AI 글래스 안에 있으면은 이게 상황을 인지할 수 있는 비서가 될 수가 있는 거고 이렇듯이 인터액션 모델의 장점이라는 거는 어디에 붙냐에 따라서 어떤 모델 레이어에 붙냐에 따라서 그 다음 레이어에 전달되는 정보들이 달라질 거고 그 구조를 짜는 것이 다르기 때문에 디바이스를 만드는 것도 OS가 운용하는 것도 앱 UX라든가 이 모든 것들이 바뀔 공산이 있다는 겁니다. 그래서 배치 사이즈로 이렇게 첨크 첨크 단위로 이렇게 처리를 하는 것이 아니라 스트리밍으로 처리를 하는 것이 되기 때문에 앞으로는 이런 음성 영상 스트림 처리 같은 것들이라든가 네트워크 지연 같은 것들 이런 것들이 중요하겠죠. 그런 관점에서 보면은 메모리 관점에서도 조금 더 빠른 SRAM 형태로 많이 박아 넣는 형태가 되지 않을까? 캐시를 많이 가져오는 구조가 되지 않을까? 이런 것도 예상을 해볼 수가 있고 점차 이 컨텍스트를 잘 유지를 해야 되기 때문에 기술이 커지면 커질수록 AI 인프라 경쟁이 큰 모델을 한 번 잘 돌리는 영역보다 굉장히 많은 사람들이 실시간 세션을 어떻게 잘 유지를 할 거냐의 형태로 가야 할 거기 때문에 그런 관점에서 로컬 디바이스와 클라우드 역할을 잘 나누는 영역 작년의 컬컴 행사 때도 크리스티아노 아몬 CEO가 얘기를 했던 게 하이브리드 AI 얘기를 계속 하잖아요? 엣지 쪽에서와 하이브리드를 잘 연계를 해야 된다. 그러한 것들이 지금 이제 슬슬 나오는 게 아닌가라고 싶습니다. 특히 지난 3월에는 이 Thinking Machines가 엔비디아 베라루빈 시스템을 기반으로 최소한 1기가와트의 규모의 컴퓨터를 사용을 약속하는 단연 파트너십을 발표를 했다고 기사가 나왔거든요? 프론티어 규모에서도 이 정도로 지금 경쟁이 된다는 거죠. 인프라를 일단 확보를 하고 그걸 토대로 해서 모델을 만들고 인터페이스를 우리가 잡아먹겠다는 형태가 될 것 같고 물론 이게 아직 제품이 아니에요. 지금 프리뷰 버전으로 나온 거고 퍼블릭 프로덕트로 나온 것이 아니기 때문에 좀 봐야 되겠지만 또 이런 형태로의 기술성을 이제 입증을 하는 단계다 라고 보시면 될 것 같고 레이턴시는 확실히 기존에 있는 것들보다 굉장히 빠르게 반응을 하는 것을 볼 수가 있는데 이것도 앞으로 실제 이 서빙을 돌리면서 어떻게 될 거냐 이런 것들을 좀 살펴봐야겠죠. 그래서 앞으로 이쪽에 AI 글래스라던가 휴머너드 쪽에서 이런 모델들이 좀 더 주목을 받을 텐데 이러한 것들이 어떻게 산업적으로 퍼도 나갈 것인지 어떤 제품과 어떤 반도체들이 필요할 건지를 좀 계속 팔로우하면 좋을 것 같습니다. 지금까지 에러였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

말하면서 듣는다… AI 글래스, 앱 시장 재편되나 | 미라 무라티가 꺼낸 다음 경쟁축

요약

핵심 포인트

댓글