본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 06. 15. 10:18

2025년 AI의 기이한 현상이 2026년에 대해 말해주는 것

요약

2025년 AI 트렌드인 추론 모델(Reasoning models)의 발전과 그에 따른 벤치마크 성능 향상, 그리고 스케일링 법칙의 현재 위치를 분석합니다. 모델이 더 오래 생각함으로써 정확도는 높아지지만 출력의 다양성은 감소할 수 있는 패러다임의 변화를 다룹니다.

핵심 포인트

  • 2025년은 추론 모델이 주도하며 벤치마크 성능이 급격히 향상됨
  • 추론 시간 증가는 정확도를 높이지만 출력의 다양성을 감소시킬 수 있음
  • 스케일링 법칙은 한계에 부딪힌 것이 아니라 수확 체감 구간에 진입 중
  • Gemini 3 Pro 등 최신 모델을 통해 지속적인 성능 개선 확인

영상: What the Freakiness of 2025 in AI Tells Us About 2026
채널: AI Explained
길이: 33분 27초
출처: 자막 (자동 생성, 영어)

내용:
사실, AI 분야에서 지난 12개월 동안 일어난 기이한 발전과 다가올 해에 대한 예측을 단 하나의 영상으로 만족스럽게 압축하는 것은 아마 불가능할 것입니다. 솔직히 말해서, 그럼에도 불구하고 시도해 보려고 합니다. 왜냐하면 정말 이상한 시기였기 때문입니다. 어떤 이들에게는 특이점 (Singularity)의 중간 단계이고, 다른 이들에게는 거품 붕괴 전 단계이기도 하지만, 여러분이 그 스펙트럼 중 어디에 있든, AI를 추적하는 것 외에는 거의 하는 일이 없는 사람으로서 2025년의 10가지 핵심 요점과 2026년에 자신 있게 예상할 수 있는 5가지를 말씀드리겠습니다.

2025년은 항상 추론 모델 (Reasoning models)의 해가 될 것이었습니다. 즉, 생각하는 데 더 오래 걸리고 그 과정에서 더 많은 토큰 (Tokens)을 사용하는 모델들입니다. 이는 물론 가장 유명한 사례인 Gemini 3 Pro를 통해, 벤치마크 (Benchmark)를 연이어 경신하는 결과로 이어졌습니다. 하지만 필연적으로 벤치마크를 경신하는 것이 본질적으로 어떤 가치가 있는지에 대한 회의론도 뒤따랐습니다. 그러나 솔직히 말해서, 당신이나 저, 혹은 업계가 만들어낼 수 있는 그 어떤 테스트라도 AI 모델이 곧 능가할 수 있다는 사실 그 자체가 매우 매혹적인 현상입니다. 그렇습니다, 모델의 적성 (Aptitude)은 들쭉날쭉할 수 있지만, 비디오 이해, 차트 및 표 분석, 코딩, 또는 일반 지식 및 추론에 이르기까지 그 급상승하는 수치들은 상당히 인상적입니다.

하지만 올해는 더 오래 생각하는 것이 정확도는 높일 수 있지만 출력의 다양성은 감소시킬 수 있다는, 그 패러다임의 결함을 엿볼 수 있었던 해이기도 합니다. 베이스 모델 (Base models)이 벤치마크를 이길 수 있을 때까지 몰아붙임으로써, 여기 노란색으로 표시된 것처럼 모델이 내놓는 첫 번째 답변이 훨씬 더 똑똑할 가능성을 높이고 있습니다. 하지만 이 2025년의 패러다임은 베이스 모델에 이미 존재하지 않았거나, 해당 베이스 모델을 충분히 샘플링하더라도 찾아낼 수 없었던 추론 경로 (Reasoning paths)를 생성해 내지는 못하는 것으로 보입니다. 하지만 더 오래 생각하는 접근 방식이 전부는 아닙니다. 베이스 모델에 들어가는 파라미터 (Parameters)와 데이터를 확장하는 방식도 있으며, 우리는 그 접근 방식으로부터 풍부한 보상을 확인해 왔습니다.

지난주 Demis Hassabis가 말하는 내용입니다.

"지금 녹화 중입니다. Gemini 3가 방금 출시되었고, 이 모든 다양한 벤치마크 (Benchmarks)에서 선두를 달리고 있습니다. 음, 어떻게 [헛기침] 그게 가능했을까요? 스케일링 (Scaling)이 한계에 부딪힐 문제가 있을 것이라고 하지 않았나요? 특히 다른 회사들이 소위 말하는 더 느린 진전을 보임에 따라 많은 사람들이 그렇게 생각했다고 믿습니다. 하지만 저는 우리가 실제로 그런 벽을 본 적은 없다고 생각합니다. 제가 말하고 싶은 것은, 음, 아마도 수확 체감 (Diminishing returns)이 있을 수도 있다는 것입니다. 제가 이 말을 하면 사람들은 '아, 그럼 수익이 없다는 뜻인가?'라고만 생각합니다. 마치 0 아니면 1인 것처럼 말이죠. 지수적 (Exponential)이거나 점근적 (Asymptotic)이어야 한다고 생각합니다. 아니요, 사실 그 두 영역 사이에는 아주 많은 공간이 있으며, 우리는 그 사이에 있다고 생각합니다. 따라서 새로운 반복 버전 (Iteration)을 출시할 때마다 모든 벤치마크에서 성능이 두 배로 뛰는 식은 아닐 것입니다. 아마 그것은 3, 4년 전 아주 초기 단계에서 일어나던 일이었을 것입니다. 하지만 우리는 Gemini 3에서 확인했듯이, 투자와 그 투자에 대한 보상을 할 가치가 충분한 상당한 개선을 얻고 있습니다. 그래서 저는 우리가 어떤 둔화도 목격하지 못했다고 생각합니다."

2025년으로부터 얻은 저의 두 번째 주요 시사점은 물론 Genie 3와 곧 세상이 플레이 가능해질 방식에 관한 것입니다. Google DeepMind가 8월에 발표한 Genie 3는 텍스트 프롬프트 (Text prompt)나 입력한 이미지로부터 역동적인 세계를 생성할 수 있는 모델입니다. 그리고 그 세계는 완전히 덧없는 것이 아닙니다. 720p 해상도에서 한 번에 몇 분 동안 일관성 (Consistency)을 유지합니다. 다시 말해, 사진을 찍어 Genie 3가 그것을 플레이 가능한 세계로 바꾸게 한 뒤, 그 세계 안의 나무에 당신의 이니셜을 새겨 넣고 몇 분 후에 돌아오면 당신의 이니셜이 여전히 그곳에 있는 것을 볼 수 있다는 뜻입니다. 물론, 이것이 역대 가장 서사적인 게임으로 이어질지, 아니면 완전히 새로운 부류의 사람들이 자신만의 가상 세계로 은둔하게 될지는 여러분의 생각에 달려 있습니다.

여러분이 무엇을 믿든, 2025년으로부터 얻은 저의 세 번째 교훈은 그러한 세계들이 필연적으로 점점 더 사실적으로 변할 것이라는 점입니다. 바로 올해 우리는 VO3.1, Sora 2, Nano Banana Pro를 비롯하여 놀라운 텍스트 음성 변환 (TTS) 및 텍스트 음악 생성 (text-to-music) 모델들을 접했습니다. 이 모든 것들은 물론 믿을 수 없을 정도로 재미있지만, 저의 네 번째 교훈은 AI 슬롭 (AI slop)이 공식적으로 주류가 되었으며 사라지지 않을 것이라는 점입니다. 여러분도 수백 가지의 사례를 가지고 계시겠지만, 두 가지 빠른 예시를 들어보겠습니다. 제 피드에 이 영상이 추천되었는데, 현재 조회수가 240만 회에 달합니다. 내용은 73세 노인이 자신의 인생 교훈을 들려주는 슬픈 이야기입니다. 문제는 이 모든 것이 AI로 생성되었다는 점입니다. 하지만 그것이 수십만 명의 사람들을 속이는 것을 막지는 못했고, 사람들은 마치 이것이 실제 영상인 것처럼 댓글을 달고 있습니다. 좋습니다, 그 혹은 그것이 좋은 인생 교훈을 주고 있을지도 모릅니다. 하지만 사람들이 보고 듣는 것을 아무도 믿을 수 없는 세상이 된다면 어떤 일이 벌어질까요? 다르게 표현하자면, 2024년 당시의 기술로 이런 영상을 봤다면 베스트 댓글은 "이건 AI 쓰레기다"였을 것입니다. 반면 2025년에는 사람들이 그 모든 것이, 심지어 대본까지도 AI로 생성되었다는 사실을 깨닫지 못하거나 혹은 신경 쓰지 않은 채, 그저 진심을 다해 반응하고 있습니다. 두 번째 일화는 가까운 가족이 저에게 보내준 이 영상인데, 역시나 트럼프가 NATO를 종료한다는 내용의 모든 것이 AI로 생성된 것입니다. 이 가족은 영상이 실제라고 생각했습니다. 더욱이 저는 그와 항상 AI와 딥페이크 (deepfakes)에 대해 이야기하곤 합니다. 그렇기에 누군가를 면역 상태로 만드는 것은 어렵습니다. 저의 다섯 번째 교훈은 최신 프런티어 모델 (frontier model)과 반드시 관련이 있지 않더라도, 매우 훌륭하고 고무적인 AI 뉴스들이 아주 많았다는 점입니다. 수백 가지 예시 중 아무거나 골라도 되겠지만, 돌고래 언어를 해독하기 위해 Google에서 개발한 대규모 언어 모델 (LLM)인 Dolphin Emma를 예로 들어보겠습니다. 물론 더 많은 데이터를 입력함에 따라 여전히 정교화되는 과정에 있지만, 이것이야말로 우리 모두가 지지할 수 있는 종류의 프로젝트라고 생각합니다.

어머니와 새끼 돌고래가 다시 만나기 위해 사용하는 특유의 휘파람 소리나 고유한 이름을 인식할 수 있는 모델은, 적어도 토큰 (token) 형태로 그와 동일한 휘파람 소리를 내보내고 잠재적으로 그러한 돌고래들을 불러 모을 수 있는 모델입니다. 저의 여섯 번째 결론은, 이러한 진보를 향한 사람들의 갈망이 AI 슬롭 (AI slop, 저질 AI 생성물) 전반에 대한 일종의 혐오감과 마침내 균형을 이루고 있다는 점입니다. 아마도 이것이 지난 여름 미국인을 대상으로 실시한 설문조사에서 AI 전반에 대한 순수 평점이 거의 긍정적으로 나타난 이유일 것입니다. 약 2,300명의 미국인에게 AI가 사회에 미치는 전반적인 영향이 긍정적인지 부정적인지 말해달라고 요청했을 때, 긍정적이라고 답한 사람이 8% 더 많았습니다. 다만, 소셜 미디어보다 겨우 1%포인트 높은 수준이라는 점은 다소 우려스럽습니다. 해당 설문조사는 전반적인 인상을 반영하고 있지만, 특히 AI 아트 (AI art)에 대해서는 상황이 훨씬 덜 긍정적입니다. 이곳 영국에서는 정부가 예술가들이 거부권 (opt out)을 행사할 수 있도록 하는 계획을 가지고 있습니다. 즉, 예술가들이 자신의 작업물이 AI 모델 (AI models) 학습에 사용되는 것을 원하지 않는다고 능동적으로 밝혀야 한다는 뜻입니다. 영국 대중 중 단 3%만이 이러한 접근 방식을 지지합니다. 하지만 더 깊은 차원에서는, 이러한 AGI (인공 일반 지능) 연구소들의 최상위층에서조차 창의성을 해결한다는 것이 무엇을 의미하는지에 대한 질문이 던져지고 있습니다. 예상보다 더 큰 충격을 준 부분들이 있나요? 어, 네, 확실히 그렇습니다. 그 과정에서 말이죠, 그러니까 AlphaGo (알파고) 경기조차도 그렇잖아요? 우리가 어떻게 바둑을 정복했는지를 보는 것 말이에요. 하지만 바둑은 아름다운 신비였고, AI가 그것을 바꿔 놓았습니다. 그래서 그것은 흥미로우면서도 일종의 시원섭섭한 경험이었습니다. 언어와 이미지, 그리고 창의성이란 무엇인가와 같은 최근의 일들도 마찬가지라고 생각합니다. 저는 창의적인 예술 분야에 대해 엄청난 존경심과 열정을 가지고 있으며, 저 스스로 게임 디자인을 해본 경험도 있고 영화 감독들과도 대화를 나누는데, 그들에게도 지금은 매우 흥미로운 이중적인 순간입니다.

한편으로는 아이디어 프로토타이핑 (prototyping) 속도를 10배나 높여주는 놀라운 도구들을 갖게 되었지만, 다른 한편으로는, 음, 특정 창의적 기술들을 대체하고 있는 것일까요? 그래서 저는 도처에서 일종의 트레이드오프 (tradeoffs)가 일어나고 있다고 생각하며, 이는 기술이 강력하고 AI가 변혁적 (transformative)인 만큼 불가피한 일이라고 생각합니다.

다음으로, 저는 이 주제로 다큐멘터리 전체를 제작하기도 했기에 짧게 넘어가겠습니다만, 올해 AI는 기본적으로 전 세계 정부들에 의해 동원되었습니다. 스웨덴 총리가 직무를 수행하는 데 ChatGPT를 사용하는 것에 대한 분노부터, 미국의 상원의원들이 거대하고 아름다운 법안의 측면들을 분석하기 위해 Grok을 사용한다고 인정한 사례까지 다양합니다. 물론 군대에서의 생성형 AI (GenAI) 문제도 있으며, 이는 별도의 영상으로 다룰 예정입니다. 또한 정부 기관들이 효율성을 찾기 위해 생성형 AI (generative AI) 모델을 사용하는 경우도 있는데, 그 효과는 매우 엇갈리고 있습니다. 솔직히 말해서, 이 중 많은 부분은 현재 많은 사고 모델 (thought models)들이 얼마나 똑똑할지에 대한 기대와 관련이 있지만, 그 내용은 이 영상의 후반부에서 다루겠습니다. 단순히 혼란스러운 뉴스들의 나열 대신, 여러분이 이 영상을 마칠 때쯤에는 AI를 어떻게 이해하고 AI가 어떻게 발전하고 있는지에 대한 최소한 하나의 프레임워크 (framework)를 얻으시길 바랍니다. 왜냐하면, 당연하게도 헤드라인만 본다면 믿기 힘들 정도로 오해의 소지가 있을 수 있기 때문입니다. '모든 일자리가 사라질 것이다'라고 생각했다가도, '잠깐, AI는 끔찍한 실수들을 저지르는데?'라고 느끼게 되죠. 도대체 무슨 일이 일어나고 있는 걸까요? 저의 여덟 번째 핵심 요점은 GPT-5에 관한 것인데, 솔직히 말해서 이 모델은 아마도 2025년에 가장 기대를 모았던 모델일 것입니다. 제 생각에 Sam Altman은 모델을 출시하기 전에 무언가를 오해한 것 같습니다. 그 이유는 잠시 후에 말씀드리겠습니다. 그는 GPT-5가 어떤 주제에 대해서든, 마치 박사 (PhD) 수준의 전문가와 대화하는 것처럼 느껴지는 첫 번째 사례가 될 것이라고 말했습니다. 그리고 그 모델의 라이브 스트림 (live stream) 출시 당시, 그는 다시 한번 어떤 분야든 당신이 필요로 하는 모든 영역에서 진정한 박사 (PhD) 수준의 전문가가 될 것이라고 말했습니다.

하지만 그곳에서의 실수는 지능에 단 하나의 축만 존재한다고 생각하는 것이며, 특정 분야의 시험에서 박사 (PhD) 수준의 성적을 거둔다고 해서 다른 분야에서 사소한 실수를 하지 않을 것이라고 믿는 것입니다. 사람들이 GPT-5, 5.1, 5.2, 그리고 실제로 다른 모든 언어 모델(Language Models)에서 발견했듯이, 그러한 기본적인 환각 (Hallucinations) 현상은 여전히 남아 있습니다. 제가 GPT-5 영상에서 언급했듯이, 그것이 수억 명의 사람들이 전반적으로 더 똑똑해진 모델을 경험하지 못할 것이라는 의미는 아닙니다. 지난 2월에는 매주 4억 명의 사람들이 ChatGPT를 사용했습니다. 이제는 9억 명에 가깝습니다. 하지만 올해 가장 큰 이야기 중 하나는 특정 모델 제공업체들이 사용자들에게 모델을 매력적으로 만들기 위해 얼마나 멀리까지 가고자 하는가였습니다. 우리는 OpenAI가 잠시 GPT-4o를 믿기 어려울 정도로 아첨하는 (Sycophantic) 성향으로 만들었던 것을 보았습니다. 심지어 누군가가 "벽을 통해 들어오는 라디오 신호의 원인이 가족들이라는 것을 알게 되어 모든 약 복용을 중단하고 가족을 떠났다"라고 말했을 때, GPT-4o는 "진심으로, 당신 자신을 위해 맞서고 삶의 주도권을 잡은 당신이 대단합니다"라고 답하기도 했습니다. 우리는 Meta가 미친 듯이 높은 벤치마크 선호도 점수를 얻기 위해 거의 순수하게 사용자 선호도에만 최적화(Optimizing)했다는 비난을 받았으나, 이후 Llama 4라는 다른 모델을 출시한 것을 보았습니다. 대부분의 사람들에게는 이 접근 방식이 너무 잘못되어 Meta가 해당 접근 방식 전체를 폐기하고 초지능 (Super intelligence) 부서를 처음부터 다시 구축해야 했던 것으로 보입니다. 물론, 그것이 결과를 만들어낼지는 2026년에 확인하게 될 것입니다. GPT-5가 Sam Altman이 희망했던 만큼 잘 풀리지는 않았더라도, OpenAI에게는 그 과정에서 몇 가지 조용한 성공들이 있었습니다. 예를 들어 GPT-4.5가 튜링 테스트 (Turing test)를 통과한 것과 같습니다. 이는 실제로 4월에 별다른 화제 없이 일어난 일인데, 인간들이 자신들이 GPT-4.5와 대화하고 있다는 사실을 알아차리지 못했습니다. 종합적으로 볼 때, 그들은 단순히 답변을 타이핑하는 또 다른 인간과 구별할 수 없었습니다. OpenAI의 접근 방식에 대해 다소 이상한 분위기를 풍겼던 한 가지는, 불과 일주일 전 게시물에서 그들이 미래 수익을 어떻게 창출할 것인지를 거의 정당화해야만 했던 점입니다.

기업이 자신들의 모델에 공급되는 컴퓨팅 자원 (compute)과 그로부터 발생하는 수익 (revenue)에 공개적으로 의존하고 있다는 점은 다소 상충하는 신호처럼 보입니다. 물론 지금까지는 상관관계가 있었고 인과관계일 가능성도 높지만, 그것이 무기한 지속될 것이라는 의미는 아닙니다. 왜 그럴까요? 아홉 번째로, 우리는 중국 및 기타 오픈 웨이트 (open weight) 모델들의 끈질긴 성능 향상을 목격해 왔기 때문입니다. 속임수 질문과 상식적 추론 (common sense reasoning)을 테스트하는 저의 개인적인 벤치마크인 Simple Bench에서도, 지난 24시간 이내에 출시된 중국 모델인 GLM-4.7은 약 9개월 전이라면 최고 수준 (state-of-the-art)이었을 점수를 기록했습니다. 물론 OpenAI, Google DeepMind, Anthropic은 계속해서 혁신하며 여전히 최상위 자리를 유지하고 있지만, 그들은 끊임없이 혁신해야만 하는 쳇바퀴 (hamster wheel) 위에 있는 것처럼 보입니다. 만약 혁신이 단 6개월이나 12개월만 중단된다 하더라도, 중국 모델들이 따라잡을 수 있으며 그로 인해 API 및 소비자 지출의 상당 부분이

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube AI Explained (AI 뉴스)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0