Gemini의 기하급수적 성장, Demis Hassabis의 ‘Proto-AGI’가 다가오고 있지만...

영상: Gemini Exponential, Demis Hassabis' ‘Proto-AGI’ coming, but …
채널: AI Explained
길이: 19분 59초
출처: 자막 (자동 생성, 영어)

스크립트:
지난 48시간 동안 우리는 두 개의 주요 모델 출시와 그에 관한 최고 리더들의 약 10시간 분량의 인터뷰를 접했습니다. 저는 이 통찰들을 약 15분 정도로 압축하여 전달해 드리고자 합니다. Gemini 3 Flash는 사용자가 ChatGPT나 Claude에서 전환하도록 마침내 설득하려는 Google의 시도이며, 그 결과는 놀라워 보입니다. 잠시 후에 자세히 살펴보겠지만, 우리는 Google DeepMind의 공동 창립자 두 명을 만났습니다. 두 사람 모두 LLM (대규모 언어 모델) 패러다임이 기하급수적으로 지속될 것이며, 머지않아 스케치된 Proto-AGI (초기 범용 인공지능) 모델이 등장할 것이라고 보고 있습니다. 하지만 그 비전에는 몇 가지 문제점이 있으며, 특히 여러분이 놓치지 말아야 할 한 가지 결과가 있습니다. 그럼 시작하겠습니다. 여기 몇 가지 가공되지 않은 수치들이 있습니다. Gemini의 Flash 버전은 거의 즉각적으로 답변할 수 있는 빠른 버전이라는 점을 염두에 두시기 바랍니다. 여러분도 알다시피 모든 기업은 일반적으로 질문에 답하는 데 훨씬 더 긴 시간, 종종 몇 분이 걸리는 Pro 버전 모델을 보유하고 있습니다. 저는 2일 전에 출시된 모델인 Gemini 3 Flash와 올해 6월 기준 최첨단(SOTA) 모델인 Gemini 2.5 Pro를 비교하는 점에 주목하시길 바랍니다. 학술적 추론 (Academic reasoning), 시각적 추론 (Visual reasoning), 과학적 지식, 코딩, 수학에 이르기까지, 결과는 그 차이가 매우 큽니다. 그리고 이것은 훨씬 더 빠른 모델에 대한 결과입니다. 예를 들어, 도구 (Tools)에 접근할 수 없는 상태에서도 새로운 Gemini 3 Flash는 매우 어려운 수학 벤치마크인 AIM에서 오류율을 대략 절반으로 줄였습니다. 다시 말씀드리지만, 이는 지난 여름의 Gemini 2.5 Pro가 88%를 기록한 것과 이틀 전의 Gemini 3 Flash가 95.2%를 기록한 것을 비교한 것입니다. 실제로 표와 차트 분석, 비디오 분석, 또는 에이전트 (Agent)로서 활동하는 것 등 여러분이 지목할 수 있는 거의 모든 영역에서 Gemini 3 Flash는 지난 여름의 이전 거대 모델 성능을 능가합니다. 물론 특정 벤치마크 세트에 맞춰 모델을 최적화할 수는 있습니다.

그리고 우리는 바로 오늘 아침, Google이 소프트웨어 엔지니어링 (Software Engineering) 성능을 최적화하기 위해 실제로 특수한 유형의 사후 학습 (Post-training)을 적용했다는 사실을 알게 되었습니다. 코딩을 하는 분들이라면, 불과 몇 주 전에 출시된 더 무거운 모델인 Gemini 3 Pro보다 Gemini 3 Flash가 더 뛰어난 성능을 보이는 것을 보고 다소 회의적일 수도 있습니다. 이러한 결과에 휩쓸려 ChatGPT는 소비자 시장에서 끝났고, Jim Kramer가 지적했듯이 Gemini가 훨씬 더 빠르게 성장하고 있다고 말하기는 매우 쉽습니다. Jim Kramer가 워낙 많은 부분에서 틀린 판단을 내린다는 점을 고려할 때, OpenAI의 응용 연구 (Applied Research) 책임자는 이를 ChatGPT에게 아주 좋은 신호로 받아들였습니다. 하지만 현실은 헤드라인이 보여주는 것보다 항상 더 복잡합니다. Gemini 3 Flash가 확실히 훌륭한 모델이긴 하지만, 결정적인 약점을 가지고 있기 때문입니다. 만약 ChatGPT가 죽어가고 있다면, OpenAI의 기업 가치를 계속해서 높게 평가하고 있는 투자자들에게는 분명 놀라운 소식일 것입니다. 이제 Demis Hassabis와 DeepMind의 또 다른 공동 창립자가 스케치한 Proto-AGI에 대해 다루기 전에, Gemini 3 Flash에 대해 잠시 더 시간을 할애하고 싶습니다. 왜냐하면 여러분이 새로운 모델의 발표를 볼 때 반드시 알아야 할 AI 모델 출시의 비밀이 하나 있기 때문입니다. 그 비밀은 모델들이 오답에 대해 처벌받는 경우가 거의 없다는 것입니다. 모델들은

Gemini 3 Flash가 제대로 맞히지 못한 질문들 중 91%는 잘못된 답을 출력했기 때문이었습니다. 즉, 잘못된 답을 환각 (hallucination) 했다고 말할 수 있습니다. 질문에 시도조차 하지 않거나 부분적인 답변만 내놓은 경우는 단 9%에 불과했습니다. 예를 들어 GPT 5.1의 경우, "모르겠습니다"라고 말하는 것과 틀린 답을 내놓는 것의 비율이 거의 50/50이었던 것과 대조적입니다. 모델에게 질문을 할 때, 정답률은 약간 더 높지만 작위적 구성 (confabulation) 또는 환각 (hallucination)의 가능성이 훨씬 큰 것을 선호하시겠습니까, 아니면 정답률은 약간 낮더라도 훨씬 더 정직하게 "모르겠습니다"라고 말하는 것을 선호하시겠습니까? OpenAI는 지난 9월, 대규모 언어 모델 (LLM)의 불확실한 응답에 대해 처벌하는 현상이 유행병처럼 번지고 있다고 한 발 더 나아가 언급했습니다. 이를 해결하기 위해서는 사회 기술적 (sociotechnical) 완화 조치가 필요합니다. 가능한 모든 답변을 내놓으며 그것이 맞다고 주장하는 모델 대신, 모른다고 말하는 모델에게 보상을 주고 높게 평가하기 시작해야 합니다. 관심이 있으시다면, 저는 지난 9월 제 Patreon에서 해당 논문에 대한 전체 영상을 제작했습니다. 많은 이들이 반대 극단으로 치우쳐 "글쎄, 그 모든 Gemini 3 결과는 가짜이고 과장된 것이다"라고 말하고 싶을지도 모릅니다. 하지만 결국 복잡한 데이터 내부의 패턴을 파악해내는 것이야말로, 예를 들어 신약 개발 (drug discovery) 같은 분야에서 여러분이 원하는 바일 것입니다. 혹은 시각적 추론 (visual reasoning) 퍼즐을 예로 들어봅시다. Gemini 3 Flash 시리즈가 ARGI 2에서 그토록 뛰어난 성적을 거두는 것은 놀라운 일이 아닙니다. 그것은 모델들의 학습 데이터 (training data) 안에 포함되어 있을 가능성이 극히 낮은 데이터 속에서 패턴을 찾아내는 테스트이기 때문입니다. Gemini 3 Flash는 토큰당 비용이 유사한 모델들보다 훨씬 낮기 때문에, 생각하는 데 아주 많은 시간을 할애할 여유가 있습니다. 어떤 이들은 모델들이 단순히 해당 벤치마크를 학습하고 있기 때문에 이러한 벤치마크들은 여전히 무의미하다고 말할 것입니다. 정답들이 학습 데이터로 유출 (leak) 되었다는 것이죠. 하지만 우리에게는 외부 벤치마크와 비공개 벤치마크가 있습니다. 그리고 그중 하나가 바로 제가 만든 간단한 벤치마크입니다. 이 벤치마크는 대개 공간 추론 (spatial reasoning) 요소를 포함하고 있는 수백 개의 함정 질문들을 던집니다.

새로운 Gemini 3 Flash가 61.1%를 기록한 것을 볼 수 있는데, 이는 Claude Opus 4.5나 GPT-5 Pro와 같이 훨씬 더 무겁고 느린 모델들과 대등한 수준입니다. Google이 자신들의 이용 약관을 위반하지 않는 한, 그들이 이 벤치마크를 조작한 것은 아니며 가짜 모델도 아닙니다. 이 모델은 진정으로 꽤 똑똑합니다. 하지만 여러분 중 많은 분들은 OpenAI가 최근 GBC 5.2를 출시했다는 사실을 알고 계실 것이고, 저 또한 이에 대해 코딩과 과학 분야에 특히 집중된 전체 영상을 제작한 바 있습니다. Sam Altman은 자신의 모델 중 하나가 새로운 과학을 발견하기를 진심으로 원하고 있지만, 거의 10억 명의 사람들에게 서비스하기 위해 더 저렴한 소형 모델을 보유하고 이를 코딩과 과학에 최적화한다면, Simplebench와 같은 함정 질문이나 공간 추론 (spatial reasoning) 벤치마크에서는 다른 모델이나 심지어 그들 자신의 이전 모델들보다 성능이 떨어질 수도 있다는 점은 어느 정도 일리가 있습니다. 그래서 저는 실제로 제 Simplebench에서 GBC 5.2 2가 GPT-5.1 및 GBC 5보다 성능이 낮게 나온 것을 보았을 때 그리 놀랍지 않았습니다. 하지만 OpenAI의 직원들 중 일부는 테스트 설정에 문제가 있거나 시스템 프롬프트 불일치(system prompt mismatch) 같은 무언가가 있는 것 같다고 말하는 듯했습니다. 이는 테스트된 모든 모델에 대해 시스템 프롬프트가 동일했음에도 불구하고 나온 이야기입니다. 또한 저희는 여러 번의 실행을 통해 평균 성능을 산출합니다. 그리고 저는 이 트윗과 그에 대한 반응을 보고 전체 실행을 다시 수행했으며, GBC 5.2 2와 Gemini 3에 대해 다시 매우 유사한 결과를 얻었습니다. 그리고 그거 아세요? 바로 어제, OpenAI는 코딩에 최적화된 모델인 GPT-5.2 Codeex를 출시했습니다. 그런데 그들의 자체 내부 벤치마크 중 하나에서, 이 모델은 이전 버전인 GPT-5.1 Codeex보다 낮은 점수를 기록했습니다. 이 벤치마크를 자기 개선 (self-improve) 능력에 대한 매우 간접적인 테스트라고 생각할 수 있습니다. 이것은 머신러닝 엔지니어링 (machine learning engineering) 벤치마크입니다. GBC 5.2 Codeex는 10%를 기록한 반면, GBC 5.1 Codeex Max는 17%를 기록했습니다. 아마도 5.2 2 C codeex가 생각하는 데 사용하는 시간과 토큰을 더 적게 사용하기 때문일 수도 있습니다. 우리는 알 수 없습니다. 하지만 핵심은 현실은 언제나 헤드라인보다 더 복잡하다는 것입니다.

아마도 Demis가 왜 Google Gemini 모델들이 간단한 벤치마크 (bench)에서 조금 더 나은 성능을 보이는 경향이 있는지, 그리고 앞으로의 경로가 어떤 모습일지에 대해 실마리를 제공해 줄 수 있을지도 모릅니다. 저는 여러분에게 핵심 내용만을 전달하기 위해 Google DeepMind와 OpenAI의 수장들이 출연한 인터뷰를 거의 10시간 분량이나 시청하거나 청취했습니다. 그리고 이 첫 번째 내용은 Symbol Bench와 직접적으로 관련이 있습니다. 화면에 보이는 질문은 제 벤치마크에서 흔히 발견되는 매우 전형적인 질문입니다. 하지만 여기 현재의 Hassabis가 있습니다. 그는 모델 내의 물리 이해 (physics understanding)가 매우 근사적 (approximate)이라고 말했습니다. 맞습니다, 시뮬레이션 에이전트 (simmer agent)를 훈련시키려 할 때, Genie가 잘못된 물리 법칙을 환각 (hallucinating)하는 것을 원치 않기 때문입니다. 그래서 실제로 우리가 지금 하고 있는 일은, 물리 법칙이 매우 정확한 게임 엔진 (game engines)을 사용하여 물리 A-level 실험 수업에서 할 법한 아주 간단한 것들을 많이 만들어낼 수 있는 물리 벤치마크 (physics benchmark)를 거의 구축하고 있는 단계입니다. 예를 들어, 작은 공들을 서로 다른 트랙으로 굴리며 얼마나 빨리 가는지 확인하는 것과 같은 것들 말이죠. 그래서 뉴턴의 운동 법칙 3법칙과 같은 매우 기초적인 수준에서 이를 정말 세밀하게 파헤쳐 보는 것입니다. 과연 모델이 이를 완전히 담아냈는가? 그것이 VO이든 Genie이든, 이 모델들이 해당 물리를 100% 정확하게 담아냈는가? 그리고 현재로서는 그렇지 않습니다. 그것들은 일종의 근사치이며, 그냥 무심코 보았을 때는 현실적으로 보일 뿐입니다. 현재 Google DeepMind는 Genie와 같이 물리적 세계를 더 잘 시뮬레이션하고 이해하기 위해 별도의 모델들을 훈련시키고 있습니다. 저는 이 모델에 대해 전체 영상을 제작한 적이 있는데, 본질적으로 이 모델은 게임 환경을 포함한 모든 환경을 시뮬레이션할 수 있으며, 사용자가 해당 환경 내에서 움직이고 상호작용할 수 있고, 환경 내부에서 수행한 행동을 최소 1분 동안 기억합니다. 이와 별개로, Google DeepMind는 가상 3D 세계에서 여러분과 함께 플레이하고, 추론하며, 학습하는 게임 동반자 또는 에이전트 (agent)라고 불리는 Simmer 2를 훈련시켰습니다. 잘 따라오고 계시길 바랍니다.

그것은 바로 어떤 세상이든 상상할 수 있는 Genie 3와, 그 세상 안에서 플레이하고, 장기적인 계획을 세우며, 컴퓨터에 실제 명령을 입력하여 실행할 수 있는 Simmer 2입니다. 또한 텍스트만으로 이미지를 생성하는, 여전히 이미지 생성 분야에서 최첨단 (state-of-the-art) 모델이라고 생각되는 Nano Banana Pro에 대해서도 들어보셨을 것입니다. 네, OpenAI가 최근 GPT 5.1을 출시했다는 것을 알고 있고, 저도 두 모델을 비교하는 데 시간을 좀 보냈지만, 저는 여전히 Nano Banana Pro가 저에게는 근소하게 앞선다고 생각합니다. 적어도 매우 근접해 있습니다. 하지만 그것은 제가 말하고자 하는 핵심이 아닙니다. 왜냐하면 Google은 당연히 많은 분이 이미 접해 보셨을 VO3.1 모델을 통해 이미지를 비디오로 변환할 수도 있기 때문입니다. 이는 Google이 시뮬레이션 (simulation)을 위해 개발 중인 서로 다른 시스템의 수를 제가 거의 놓치고 있을 정도라는 것을 의미하며, Demis Hassabis는 이 모든 것을 하나로 통합하고 싶다고 밝혔습니다. 그에게 그것은 프로토타입 AGI (prototype AGI)가 될 것입니다.

현재 AI 분야에서 일어나고 있는 모든 일들, 즉 언어 모델 (language models), 월드 모델 (world models) 등등 중에서 당신이 꿈꾸는 AGI의 비전에 가장 가까운 것은 무엇인가요?

제 생각에는 실제로 그 조합이라고 봅니다. 분명히 매우 유능한 Gemini 3가 있고, 또한 우리가 지난주에 출시한 Nano Banana Pro 시스템이 있는데, 이는 우리의 이미지 생성 도구의 고급 버전입니다. 이 시스템의 정말 놀라운 점은 내부적으로 Gemini를 탑재하고 있다는 것입니다. 그래서 단순히 이미지를 이해하는 것을 넘어, 이미지 속에서 무엇이 일어나고 있는지 의미론적 (semantically)으로 이해할 수 있습니다. 즉, 역학 (mechanics)에 대한 일종의 깊은 이해를 갖추고 있으며, 무엇이 물체의 구성 요소인지, 재질은 무엇인지 등을 파악하고, 이제는 텍스트를 정말 정말 정확하게 렌더링 (render)할 수 있습니다. 그래서 저는 이것이 일종의 이미징을 위한 AGI로 나아가고 있다고 생각합니다. 이미지 전반에 걸쳐 무엇이든 할 수 있는 일종의 범용 시스템 (general purpose system)이라고 생각합니다. 그래서 매우 흥분되는 일이죠. 그리고 월드 모델 (world models)에서의 발전, 즉 Genie와 Simmer, 그리고 우리가 그곳에서 하고 있는 일들 말입니다.

그리고 결국 우리는 그 서로 다른 프로젝트들을 일종의 수렴(converge) 단계로 가져가게 될 것입니다. 현재 그것들은 서로 다른 프로젝트들이며 서로 얽혀 있지만, 우리는 그것들을 하나의 거대한 모델로 수렴시켜야 합니다. 그러면 그것이 '프로토 AGI (proto-AGI)'의 후보가 되기 시작할 수도 있습니다. 그 '프로토 AGI'라는 인용구의 타이밍과 이 모든 이질적인 시스템들을 하나로 모으는 작업은, 우리의 현재 패러다임을 2년 더 확장(scaling)하는 시점과 일치할 것입니다. 다시 말해, API를 통해 거의 아무도 사용하지 않았던 GPT-3 모델에서 오늘날의 Gemini 3에 이르기까지 우리를 이끌어온 모든 것들 말입니다. 그리고 DeepMind의 또 다른 공동 창립자인 Shane Le에 따르면, 이러한 지속적인 투자는 'mini'로 이어질 것입니다.

Gemini의 기하급수적 성장, Demis Hassabis의 ‘Proto-AGI’가 다가오고 있지만...

요약

핵심 포인트

댓글