Gemini 3.1 Pro와 벤치마크의 몰락: AI의 '바이브(Vibe)' 시대에 오신 것을 환영합니다

동영상: Gemini 3.1 Pro와 벤치마크의 몰락: AI의 '바이브 (Vibe)' 시대에 오신 것을 환영합니다
채널: AI Explained
길이: 18분 50초
출처: 자막 (자동 생성, 영어)
스크립트:
최신이자, 어떤 이들은 위대하다고 말하는 AI 모델, Gemini 3.1 Pro가 방금 출시되었습니다. 출시 후 24시간 동안, 그리고 짧은 초기 액세스 기간 동안 저는 이 모델을 수백 번 테스트했으며, 당연히 모델 카드 (model card)도 읽어보았습니다. 하지만 여기서 중요한 점은, 일반 사용자들을 위해 저는 헤드라인 점수 그 이상을 전달하고 싶으며, 왜 X, YouTube, TikTok 또는 팟캐스트에서 보는 모든 새로운 의견들이 당신이 마지막으로 본 의견과 모순되는 것처럼 보이는지에 대한 감각을 전달하고자 한다는 것입니다. 왜냐하면 어떤 모델이 전반적으로 가장 좋은지에 대한 혼란에는 실제로 기술적인 이유가 있기 때문입니다. 하지만 최근 한 모델이 제가 이야기할 가치가 있다고 생각하는 임계값을 통과한 저만의 개인적인 벤치마크 (benchmark)가 하나 있다고 말씀드리고 싶습니다. 먼저 30초간의 컨텍스트 (context)를 드리자면, LLM (Large Language Models)을 성장시키거나 훈련시키는 사전 학습 (pre-training) 단계는 인터넷 규모의 데이터로 모델을 훈련시키는 과정을 포함한다는 것을 여러분도 잘 알고 계실 것입니다. 하지만 이제 그것은 LLM 훈련에 소비되는 컴퓨팅 (compute)의 20%만을 차지할 뿐입니다. 따라서 제가 썼듯이, 사후 학습 (post-training) 단계가 중요합니다.

범용 베이스 모델 (generalist base models)은 특정 도메인의 내부 벤치마크 (benchmarks)를 통해 다듬어집니다. 여기에는 아마도 여러분의 도메인에 특히 능숙해지기 위해 산업 현장에서 조달된 데이터를 사용하는 것이 포함됩니다. 여기서 함정이 있습니다. 불과 1년 전만 해도 상황은 그렇지 않았습니다. Anthropic의 CEO인 Dario Amodei는 당시 "두 번째 단계인 RL (강화학습) 단계에 소비되는 양은 모든 플레이어에게 적은 수준이다"라고 말했습니다. 제가 왜 그런 컨텍스트 (context)를 드렸을까요? 만약 이 연구소들 중 하나가 여러분의 도메인과 관련된 데이터를 가지고 있고, 해당 분야에서 높은 점수를 얻도록 모델을 사후 학습 (post-train) 시킨다면, 그 모델에 대한 여러분의 경험은 다른 벤치마크 (benchmarks)가 말하는 것과 상당히 다를 수 있기 때문입니다. 과거의 패러다임에서는 만약 모델이 한 도메인에서 분명히 더 뛰어났다면, 다른 많은 도메인이나 모든 도메인에서도 더 뛰어날 가능성이 훨씬 높았습니다. 하지만 이제는 더 이상 그렇지 않습니다. ใน

그것이 바로 정확한 사례였습니다. 여러분 중 많은 분이 Claude Code를 둘러싼 격렬한 논쟁과, 현재 웹을 휩쓸고 있는 온갖 종류의 Claude 기반 에이전트(agents)들에 대해 들어보셨을 것입니다. 그래서 우리는 모든 분야에서 기하급수적인 향상이 일어나고 있다고 보고 있죠, 그렇지 않나요? 음, Epoch AI가 만든 체스 퍼즐 벤치마크(benchmark) 하나를 예로 들어보겠습니다. 이에 대해서는 나중에 더 자세히 다루겠습니다. 5개월 전, Opus에 비해 더 작은 모델인 Claude Sonnet 4.5는 12%를 기록했습니다. 하지만 불과 지난주, 5개월이 더 지난 Claude Opus 4.6은 단 10%를 기록했습니다. 이것은 Claude Opus 4.6을 비하하려는 것이 아닙니다. 저도 항상 사용하고 있으며, 코딩(coding)에 있어 믿을 수 없는 모델입니다. 그리고 물론, AI 연구소(AI labs)들이 이 성능을 개선하고 싶다면 쉽게 할 수 있을 것입니다. 제 생각에 extra high 난이도에서 GPT 5.2는 약 50% 정도를 기록할 것 같습니다. 체스는 일종의 일반적인 미래 지향적 추론 능력(reasoning prowess)을 측정하는 상당히 순수한 척도라고 말할 수 있습니다. AI의 범용 모델(generalist) 시대에는 체스 성능이 온갖 다른 도메인(domains)으로 전이될 것이라고 확실히 기대했을 것입니다. 하지만 우리는 더 이상 그 패러다임(paradigm)에 있지 않습니다. 이제는 여러분이 어떤 도메인에 있느냐에 따라 달라질 것입니다. 그렇다고 해서 Gemini 3.1 Pro가 놀라운 모델이 아니라는 뜻은 아닙니다. 분명 놀라운 모델입니다. 여러분이 측정하고자 하는 거의 모든 도메인에서 Claude Opus 4.6이나 GPT 5.3 같은 다른 최고의 모델들과 경쟁할 수 있을 것입니다. 하지만 각종 코딩 벤치마크, 과학적 추론(scientific reasoning) 측정치, 그리고 GPQA Diamond 및 Humanity's Last Exam과 같은 학술적 추론(academic reasoning) 측정치뿐만 아니라, 일반적인 패턴 인식(pattern recognition)인 ARC-AGI-2(이 부분은 나중에 다시 언급하겠습니다)에서도 더 뛰어난 모습을 보이면서도, 정작 제가 채널에서 여러 번 다루었던 인간 전문가들이 수행하는 광범위한 전문가 과업 측정치인 GDP val에서의 정면 대결에서는 Claude Opus 4.6, 심지어 GPT 5.2보다 상당히 뒤처지는 것을 보고 여러분은 당연히 약간 혼란스러울 수 있습니다. 네, 이에 대한 한 가지 큰 설명은 앞서 말씀드린 도메인 특화(domain specialization)입니다. 하지만 그 외에도 여러분이 알아두어야 할 흥미로운 맥락(context)이 서너 가지 더 있습니다.

첫째로, ARC-AGI-2를 자세히 살펴보겠습니다. 여기서 Gemini 3.1 Pro가 기록한 77.1%의 점수는 더 비싼 모델인 Claude Opus 4.6(약 69% 기록)을 훨씬 앞지르는 수치입니다. 제가 이 사례부터 시작하는 이유는 Google DeepMind의 CEO인 데미스 허사비스(Demis Hassabis)가 Gemini 3.1 Pro의 출시를 알리는 트위터 게시물에서 이 지표를 눈에 띄게 강조했기 때문입니다. 학습 데이터에 포함되지 않았어야 할 퍼즐 문제들에 대해, Gemini 3 시리즈는 비용 효율성 측면에서 다른 모든 모델을 능가합니다. 하지만 첫 번째 추가적인 주의 사항은 유명한 AI 연구자이자 교수인 멜라니 미첼(Melanie Mitchell)로부터 나옵니다. 그녀는 인코딩(encoding)을 숫자에서 다른 기호로 바꾸면 정확도가 떨어진다는 점을 지적했습니다. 더 깊이 파고들어 본 결과, 연구진은 입력값에서 색상을 나타내는 숫자들이 LLM(대규모 언어 모델)에 의해 의도치 않은 산술적 패턴(arithmetic patterns)을 찾는 데 사용될 수 있으며, 이것이 우연한 정답으로 이어질 수 있다는 사실을 발견했습니다. 저는 이것을 모델이 '속임수'를 쓴다고 말하고 싶지는 않습니다. 그들은 정답을 얻기 위해 찾을 수 있는 모든 지름길을 사용하고 있을 뿐이니까요. 공정하게 말하자면 그렇습니다. 하지만 이는 벤치마크 내에서도 질문을 어떻게 설정하느냐가 중요하다는 점을 우리에게 상기시켜 줍니다. 좋습니다, 만약 여러분이 ARC-AGI-2나 Simple Bench, 혹은 다른 어떤 벤치마크에도 관심이 없고 오직 코딩 성능에만 관심이 있다고 가정해 봅시다. ARC 시리즈인 ARC-AGI 테스트의 창시자인 프랑수아 숄레(François Chollet)는 다음과 같이 말합니다. "충분히 발전된 유전적 코딩(genetic coding)은 본질적으로 머신러닝(machine learning)입니다. 에이전트 또는 에이전트 군집(agent swarm)에게 목표가 주어지면, 코딩 에이전트들이 목표에 도달할 때까지 반복합니다. 머신러닝의 다른 분야와 마찬가지로, 그 결과물은 블랙박스(black box) 모델입니다. 작업을 수행하는 코드 베이스(code base)를 갖게 되지만, 반드시 내부 로직을 검사하게 되는 것은 아닙." Gemini 3.1이 ARC-AGI에서 가짜 패턴(spurious patterns)을 찾아냈을 수 있는 것처럼, 여러분의 코드 베이스에서도 Claude나 Codex가 명세(spec)에 과적합(overfit)되거나 원래의 개념에서 벗어날(drift) 수 있습니다. 따라서 이 영상에서 제시된 오류 가능성들은 여러분이 오직 코딩에만 관심이 있거나, 혹은 Claude 에이전트가 여러분을 대신해 코딩하도록 내버려 두는 경우에도 여전히 유효합니다.

Gemini 3.1 Pro는 실제로 경쟁적인 코딩 문제들을 포함하는 live Code Bench Pro에서 기록적인 Elo 점수를 달성했습니다. 이는 대단한 일이지만, 그 최적화 다이얼을 너무 과하게 돌릴 수도 있습니다. 제가 어젯밤 Cursor 내부에서 Gemini 3.1 Pro를 사용했을 때 어떤 일이 일어났는지 보여드리겠습니다. 이 수많은 헛소리(paplum)들을 어떻게 기록적인 Elo 점수와 화해시킬 수 있을까요? 글쎄요, 다시 말하지만 그것이 이 영상의 주제입니다. 참고로 제가 Gemini 3.1 Pro에 대해 지나치게 회의적으로 들린다면, 찬사를 쏟아부음으로써 그 균형을 맞춰보겠습니다. 제가 개인적으로 운영하는 Simple Bench—말하자면 넌센스 질문(trick questions)이나 상식적 추론(common sense reasoning)을 테스트하는 곳인데—에서, Gemini 3.1 Pro는 Gemini 3 Pro의 이전 기록을 깨고 79.6%를 기록했습니다.

이는 본질적으로, 적어도 저희가 사용한 9명의 참가자 사이에서는 인간 평균 기준선(human average baseline)의 오차 범위 내로 들어왔음을 의미합니다. 그리고 저는 이 수치가 나타내는 임계점(threshold)을 표시하는 데 딱 60초만 할애하고 싶습니다. 팟캐스트나 기사에서 항상 AI 모델이 전문가나 숙련가와 비교된다는 이야기를 듣고, 초지능(superintelligence)이나 재귀적 자기 개선(recursive self-improvement) 같은 문구들이 떠돌아다니는 것을 봅니다. 하지만 모델을 평균적인 인간과 비교하는 것은 어떨까요? 물론, 평균적인 인간이라면 풀 수 있지만 모델은 여전히 실패할 오디오나 시각적 퍼즐을 찾을 수는 있을 것입니다. 하지만 영어로 된 텍스트만으로 볼 때, 저는 평균적인 인간, 즉 거리의 평범한 남녀가 프런티어 모델(frontier models)보다 명확하게 뛰어난 성능을 보일 수 있는 테스트를 더 이상 작성할 수 없는 그 순간을 기록할 가치가 있다고 생각합니다. 저는 'strawberry'에 'r'이 몇 개 들어있는지 묻는 것과 같은 토큰화 버그(tokenization bugs)를 이용하는 것을 말하는 게 아닙니다. 비전문가인 인간을 대상으로 한 영어 기반의 공정한 텍스트 테스트를 말하는 것입니다.

[헛기침] 만약 제 의견에 동의하지 않으신다면 말씀해 주세요. 하지만 저는 그 임계점을 넘어서는 것이 기록할 만한 순간이라고 생각합니다. 다만 Simple Bench를 통해서도 제가 방금 설명한 주의 사항을 다시 한번 상기하게 된다는 점을 말씀드리고 싶습니다. 모델들은 지름길(shortcuts)을 찾는 데 매우 영리합니다.

그리고 저는 적어도 12개월 전쯤부터 이미 눈치채고 있었습니다. Simple Bench가 객관식(multiple-choice) 질문 세트였기 때문에, 예를 들어 정답 중 하나가 '0'인 경우 모델에게 "잠깐, 이건 함정 질문일 수도 있겠는데"라는 신호를 줄 수 있다는 점을 말이죠. 예를 들어, 팬에 달걀을 프라이하는 것에 관한 첫 번째 질문을 직접 시도해 본다면, 선택지 중 하나로 '팬에 남은 얼음 조각이 0개일 수 있다'는 사실이 모델로 하여금 "잠깐, 어떻게 0개일 수 있지? 그게 어떻게 가능해?"라고 생각하게끔 경고를 줄 수 있습니다. 그렇다면 객관식 질문을 없애고, 모델이 개방형(open-ended) 방식으로 답변하게 한 뒤, 블라인드 채점 모델(blind grader model)을 통해 그 답변들을 숨겨진 정답과 비교하게 하면 어떻게 될까요? 음, 여전히 꽤 인상적인 점수를 얻긴 하지만, 아주 조금은 낮습니다. 약 15~20%포인트 정도 하락한다고 볼 수 있습니다. 참고로 이것은 두 가지를 다시 한번 상기시켜 줍니다. 네, 모델들은 지름길(shortcuts)을 찾고 있습니다. 그리고 네, 같은 질문을 다른 방식으로 던진다면 성능이 달라질 수도 있습니다. 하지만 성능이 0으로 떨어지는 것은 아닙니다. 프런티어 모델(Frontier models)들은 직접 학습하지 않은 영역에서도 진정으로 나아지고 있습니다. 지수적 성장의 영광으로 돌아가기 전에 다음의 중요한 주의 사항을 살펴보겠습니다. 이번 주에 나온 따끈따끈한 Gemini 3.1 Pro와 Anthropic의 Claude Sonnet 4.6을 살펴봅시다. 환각(hallucinations) 또는 사실적 정확성(factual accuracy) 측면에서 이들은 어떤 성과를 보일까요? 모델 제공업체들이 더 이상 환각에 대해 이야기하거나 측정하고 싶어 하지 않는다는 점을 눈치채셨을 겁니다. 왜냐하면 환각은 이제 해결된 문제라고 예측되었기 때문입니다. Google의 이번 출시 차트에도 환각에 대한 직접적인 측정치는 없었습니다. 하지만 공정하게 말하자면, 그들은 Artificial Analysis의 벤치마크인 AA Omniscience를 인용했습니다. 첫눈에 보기에 Gemini 3.1 Pro는 다른 모델들을 압도하는(shellac) 것처럼 보입니다. Gemini의 최고 점수인 +30점은 Claude Opus 4.6의 +11점, 그리고 Claude Sonnet 4.6의 -4점과 대조를 이룹니다.

이는 환각 (hallucinations)에 대해 페널티를 부여하고 정답에 대해 보상을 주는 점을 고려하더라도 마찬가지입니다. 하지만 오답에만 초점을 맞추어, 모델이 틀린 답이나 설명을 환각했는지, 아니면 답변을 거부하거나 답을 모른다고 인정했는지를 살펴보면, Gemini 3.1은 오답의 50%가 환각인 것으로 나타나 준수한 성적을 보이지만, Claude Sonnet 4.6은 38%로 더 낮은 수치를 기록하며 더 나은 모습을 보입니다. 흥미롭게도 중국 모델인 GLM-5는 34%로 훨씬 더 뛰어납니다. 따라서 환각은 확실히 해결된 문제가 아니며, 어떤 모델이 최고 성능에서 최적화되었거나 더 뛰어나다고 해서 최악의 상황에서 더 나쁠 가능성을 배제할 수는 없습니다. 이런 말이 있죠? "나의 나쁜 순간을 받아들일 수 없다면, 나의 좋은 순간을 누릴 자격도 없다"라고 말입니다. 모든 모델에 대해, 여러분은 이러한 종류의 트레이드오프 (trade-off)를 감수해야 할 것입니다. Gemini 3.1의 모델 카드 (model card)에 대해 한 가지 짧게 언급하자면, 단 9페이지에 불과합니다. CEO의 출시 게시물이나 출시 영상이 하이프 (hyping, 과장된 홍보)의 목적을 수행한다면, 이러한 모델, 시스템 또는 안전 보고서들은 하이프를 걷어내는 (de-hyping) 역할을 할 것입니다. 예를 들어, 사이버 도메인에서의 Gemini 3.1에 집중해 봅시다. 만약

Gemini 3.1 Pro와 벤치마크의 몰락: AI의 '바이브(Vibe)' 시대에 오신 것을 환영합니다

요약

핵심 포인트

댓글