두 AI 모델이 “정부의 긴박함을 자극”할 예정이지만, 이 도전 과제가 그들을 무너뜨릴 것인가?

영상: 두 AI 모델이 “정부의 긴박함을 자극”할 예정이지만, 이 도전 과제가 그들을 무너뜨릴 것인가?
채널: AI Explained
길이: 16분 27초
출처: 자막 (자동 생성, 영어)

두 개의 독점 보고서에 따르면, OpenAI와 Anthropic이 각각 출시할 차기 AI 모델들로부터 AI 성능의 질적 도약이 있을 것이라고 합니다. OpenAI의 경우, 이는 새로운 Spud 모델을 위한 컴퓨팅 자원 (computing resources)을 확보하기 위해 Sora 앱을 중단하는 것을 의미했습니다. 그리고 Claude의 제작사인 Anthropic의 경우, 이는 최근 미국 정부가 설정한 6개월의 기한을 넘어 Claude를 사용하기 위한 계약을 부활시키려는 펜타곤 (Pentagon)의 새로운 관심을 의미합니다. 하지만 이 영상은 2026년의 화젯거리가 될 것이 확실한 완전히 새로운 벤치마크 (benchmark)인 Arc-AGI-3에 대해서도 깊이 있게 다룰 것입니다.

저는 논문 전문을 읽었지만, 주요 결과는 인간은 100%를 기록하는 반면 현재 최고의 AI 모델들은 0.5% 미만을 기록한다는 것입니다. 이는 이번 주에 인공 일반 지능 (AGI)이 이미 달성되었다고 말한 Nvidia의 CEO, Jensen Huang에게는 새로운 소식일 수도 있고 아닐 수도 있습니다. 우선 OpenAI의 에로티카 봇 (erotica bot) 이야기부터 시작해 보겠습니다. 왜냐하면 그곳의 소식은 그 에로틱 챗봇이 출시되지 않는다는 것이기 때문입니다. 아마도 사용자 참여를 최적화하기 위해 수십억 달러를 소비했을 것으로 추정되지만, 결과적으로 보류된 것으로 보입니다. 섹스봇 (sexbot) 루머의 항상 제 소식통인 Financial Times에 따르면, OpenAI는 Spud를 위한 컴퓨팅 자원이 필요합니다. AGI 배포에 집중하기 위해 다른 사이드 퀘스트들을 포기해야 하며, 수행하는 모든 것을 하나의 슈퍼 앱 (super app)으로 통합해야 합니다. The Information으로 넘어가 보면, 듣기로는 OpenAI 직원들조차 바이럴 AI 영상들을 만드는 Sora가 여전히 회사의 컴퓨팅 자원을 낭비하고 있다고 불평했다고 합니다. 반면, Sam Altman에 따르면 Spud 모델은 매우 강력한 것으로 보입니다. 몇 주 안에 준비될 것이며, 경제를 진정으로 가속화할 것이라고 합니다. 이 시점에서 여러분 중 일부는 "오, 그라면 그렇게 말하겠지"라며 눈을 굴릴 수도 있다는 것을 알고 있습니다. 하지만 이 기사는 제가 방금 Axios에서 읽었던 Anthropic과 그들의 Claude 시리즈에 관한 기사와 묘하게 닮아 있었습니다.

여기에 많은 사람들이 눈치채지 못했을 핵심적인 단락이 있습니다. 새로운 Claude 시리즈에 대해, Anthropic은 미국 정부 관계자들에게 다음 단계의 큰 진보가 공격적 및 방어적 사이버 능력 (cyber capabilities) 모두를 비약적으로 강화할 것이라고 경고했습니다. 이는 심지어 정부 기관이 일종의 합의를 추진하도록 자극할 수도 있습니다. 만약 Anthropic이 이전에 펜타곤 (Pentagon)과 맺었던 계약이 파기된 경위에 대해 잘 모르신다면, 제가 최근에 올린 영상 시리즈를 확인해 보세요. 참고로, Axios의 이 기사는 펜타곤이 그 계약 파기를 재고하고 있을지도 모른다는 점을 추가로 암시합니다. Anthropic 및 전쟁부 (Department of War)와의 갈등 중 가장 공개적인 부분이 지나간 후에도, 핵심 협상 담당자는 여전히 합의에 매우 근접해 있다고 말했습니다. 여러분 중 일부가 흥미로워할 만한 세부 사항 하나는 Anthropic이 어떻게 정부의 신뢰를 다시 얻을 수 있을지에 대한 것입니다. Anthropic의 CEO인 Dario Amodei의 고문 중 한 명은 Brad Gerstner입니다. 그는 부모가 등록할 경우 모든 신생아에게 1,000달러를 제공하는 '트럼프 계좌 (Trump accounts)'의 설계자입니다. 기사는 Anthropic이 이 계좌들의 일부를 자금 지원하는 데 동의한다면 어떤 일이 벌어질지에 대해 추측을 이어갑니다. 마치 보편적 형평성 (universal equity)을 향한 매우 초기 단계의 잠정적인 조치처럼 말이죠. 어쨌든, 지금까지의 모든 내용은 새로운 단계의 AI가 임박했다는 사실에 여러분을 상당히 들뜨게 만들 수도 있습니다. 그래서 다음에 이어질 내용은 이 모든 것에 약간의 맥락을 더해줄 수 있기를 바랍니다. 왜냐하면 지난 48시간 동안, 제가 이 채널에서 수년간 다뤄온 벤치마크 시리즈의 연속인 Arc-AGI-3가 나왔기 때문입니다. 이 벤치마크의 제작자들에 따르면, AI와 인간의 학습 사이에 격차가 존재하는 한 우리는 AGI를 가졌다고 할 수 없습니다. 잠시 후에 논문을 살펴보겠지만, 그 헤드라인에 대한 저의 즉각적인 반응은 수학적 기억력과 속도 면에서 인간과, 예를 들어 침팬지 사이에는 최소한 어느 정도의 격차가 존재한다는 것입니다. 침팬지는 실제로 화면에 짧게 깜빡이는 숫자를 인간보다 더 잘 추적할 수 있습니다. 따라서 그 논리에 따르면 인간 역시 AGI가 아닙니다. 이는 아마도 세계적인 사건들에 의해 입증될 수 있는 발견일 것입니다.

하지만 그건 차치하고라도, Arc-AGI-3 퍼즐은 시도해 보는 것 자체가 진심으로 정말 재미있습니다. 제가 좀 우울해서 그런 걸지도 모르겠네요. '약간 재미있다'라고 말해야 할지도요. 그리고 저는 이 퍼즐이 탐색 (exploration), 계획 (planning), 기억 (memory), 그리고 목표 설정 (goal setting)을 동시에 테스트할 수 있다는 점이 정말 마음에 듭니다. 예를 들어, 화면 어디에도, 그리고 모델들에게도 환경을 조작하기 위해 아이콘을 움직여야 한다거나, 예를 들어 플러스(+) 기호가 왼쪽 하단 구석에 있는 도형을 회전시킬 것이라는 설명은 없습니다. 혹은 더 중요한 점으로, 목표가 왼쪽 하단의 도형을 상단의 도형과 닮게 만드는 것이라는 설명도 없습니다. 이러한 목표 중 어느 것도 명시되어 있지 않지만, 실제 삶에서처럼 때로는 목표를 추론하거나 스스로 만들어내야 합니다. 저는 Arc-AGI-3에 대한 독점적인 통찰력을 얻을 수 있었는데, 수많은 벤치마크 (benchmark)가 협소한 데 반해, 언어, 암기된 지식, 또는 문화적 단서에 의존하지 않는, 즉 진정으로 추상적인 (abstract) 벤치마크—Arc의 'A'는 추상화 (abstraction)를 의미합니다—를 갖는다는 것은 저에게 이 분야에 있어 매우 건강한 일입니다. 하지만 세부적인 사항을 보자면, 현재 최첨단 모델 (frontier models)들의 형편없는 성능은 2026년이 어떻게 전개될지에 대해 무엇을 말해주고 있을까요? 다음은 21페이지 분량의 논문에서 뽑아낸 핵심 내용입니다. 우선, 비교적 최근에 최첨단 AI 모델들에 의해 포화 상태에 도달했던 Arc-AGI-1과 2에는 어떤 일이 있었을까요? 논문에는 지난 18개월 동안 해당 벤치마크에서 나타난 급격한 성능 향상을 보여주는 멋진 그래프가 있습니다. 익숙하지 않으신 분들을 위해 설명하자면, 이것들은 상호작용형 게임 대신 그리드 (grid) 상의 패턴 인식 (pattern recognition)을 테스트하는 정적인 테스트에 더 가까웠습니다. 저자들은 두 가지 중요한 점을 지적합니다. 첫째, 2024년 9월 o1 preview와 함께 공개적으로 데뷔한 내장된 사고의 사슬 (chain of thought) 추론이 모델들이 일종의 유동 지능 (fluid intelligence)을 입증할 수 있게 해주었다는 점입니다. 즉, 즉석에서 생각하고, 최종 목표에 도달하기 위해 학습 데이터의 패턴을 결합하는 능력입니다. 이것이 이전 벤치마크들이 포화 상태에 이른 이유 중 하나입니다. 또 다른 설명은 더욱 흥미롭습니다.

저자들은 해당 벤치마크들의 공개 데이터셋(public set)과 비공개 테스트 데이터셋(private test set)이 매우 유사했기 때문에, 이 목적을 위해 생성된 작업 공간(task space)의 밀집된 샘플링을 나타내는 방대한 양의 작업들로 학습된 모델이라면 — 즉, 비공개 테스트 데이터셋이 어떠할지에 대한 수천 가지의 서로 다른 추측을 자동으로 생성하는 모델이라면 — 본질적으로 벤치마크를 속일(game) 수 있다고 말합니다. 이것은 직접적인 암기(memorization)가 아니라, 더 높은 수준의 지름길이자 일종의 공격 형태입니다. 그들은 Gemini 3와 같은 모델들이 사고 사슬(chain of thought) 과정에서, 우연이든 의도적이든 그들의 학습 데이터가 Arc-AGI와 유사한 작업들을 닮았을 수 있다는 단서들을 보여주었다고 지적했습니다.

앞으로 저자들은 비공개 테스트 데이터셋이 공개적으로 사용 가능한 시연 데이터(demonstration data)와 비교했을 때 상당히 구별되고 분포 외(out of distribution) 데이터여야 한다고 주장합니다. Arc-AGI-3의 경우, 공개 테스트 데이터셋은 API를 통해 테스트되는 준비공개(semi-private) 테스트 데이터셋 및 경연을 위해 사용되는 완전 비공개(fully private) 테스트 데이터셋보다 다르고 더 쉽습니다. 이는 작업의 분포가 다르기 때문에, 설령 AI 연구소들이 의도적으로 Arc-AGI 작업을 학습 데이터에 섞으려 하더라도 훨씬 덜 속이기(gameable) 쉽습니다. Arc-AGI-3의 목표는 최첨단(frontier) AI와 인간 수준의 범용 인공지능 (AGI) 사이의 잔여 격차를 측정하는 것입니다. 앞으로 며칠 또는 몇 주 안에 잠재적으로 놀라운 새로운 모델들이 출시될 때, 그들이 인간과 비교하여 어떤 잔여 격차나 결함(deficiencies)을 가질 것인가 하는 점입니다. 저는 이 논문의 저자들이 '격차(gaps)'보다는 '결함(deficiencies)'이라는 표현을 사용하기를 바랍니다. 왜냐하면 이 논문의 방법론을 통해 우리는 AI의 성능이 100% 또는 인간 유래 기준선인 100%로 제한(clamped)된다는 것을 알 수 있기 때문입니다. 따라서 언젠가 그들이 이러한 상호작용 게임을 인간보다 더 효율적으로 해결하더라도, 그들은 오직 100%의 점수만을 얻게 될 것입니다. 즉, AI가 이 벤치마크에서 100%를 받는다고 해서 그것이 AGI의 증거로 받아들여지거나 심지어 강력한 증거로 간주되지도 않을 것입니다. 왜냐하면 모델이 얻을 수 있는 최대치가 100%이기 때문입니다. 그럼에도 불구하고 현재의 성능은 그들이 AGI가 아니라는 증거로 받아들여지고 있습니다.

이 벤치마크 (Benchmark) 또한 턴제 (turn-based) 방식이므로, AI 모델의 우월한 속도나 더 나은 반사 신경은 테스트에 반영되지 않습니다. 또한, Arc-AGI-3의 점수는 얼마나 많은 레벨을 해결했느냐가 아니라, 해당 레벨을 해결하기 위해 얼마나 많은 행동 (actions)을 취했느냐에 따라 결정되기 때문에 모델의 상대적인 저렴함 또한 벤치마크 점수 산정에 크게 고려되지 않습니다. 또한, 만약 모델이 인간에 비해 5배 이상의 행동을 취할 경우, API 비용 문제 때문인지 해당 시도는 폐기되는 것으로 보입니다. 그리고 직접 벤치마크를 시도해 보면, 레벨이 진행될수록 점점 더 어려워진다는 것을 알 수 있습니다. 더 중요한 점은, 레벨 1에서 배운 내용이 레벨 2와 그 이후에도 적용된다는 것입니다. 플러스 기호가 도형을 회전시킨다는 것을 레벨 1에서 학습하는 것은 레벨 2에서도 유용합니다. 따라서 다시 말하지만, 이 벤치마크는 메모리 (memory) 또한 테스트하고 있으며, 이는 제가 19페이지에서 발견한 매우 흥미로운 몇 개의 짧은 단락으로 저를 이끕니다. Symbolica AI라는 그룹은 본질적으로 한 모델이 다른 모델을 제어하는 방식인 하네스 (harness)를 만들었습니다. 하위 에이전트 (sub-agents)들이 진행 상황에 대한 요약을 생성하면, 논문에서는 이 설계가 모델의 성능을 저하시키던 컨텍스트 (context)의 성장을 제한한다고 언급합니다. 전송되는 모든 그리드 (grids)에 압도당하는 대신, 하위 에이전트가 작은 텍스트 요약들을 제공함으로써 오케스트레이터 에이전트 (orchestrator agent)가 더 높은 수준의 계획을 유지할 수 있게 해준 것입니다. 이 접근 방식은 공개된 세 가지 환경을 모두 해결할 수 있었습니다. 그러나 만약 여러분이 Arc-AGI-3에 맞서기 위해 로컬 에이전트를 준비하고 있다면, 한 가지 문제는 하네스 (harness) 사용이 허용되지 않는다는 점입니다. 그들의 설명에 따르면, 목적은 Arc-AGI-3 전용 시스템을 설계하는 데 투입된 인간 지능의 양을 측정하는 것이 아니기 때문입니다. 따라서 그들은 범용 API (general-purpose API) 뒤에서 제공되며, 벤치마크를 위해 특별히 준비되지 않은 시스템들의 성능을 보고하는 데 집중할 것입니다. 모델들이 받는 유일한 컨텍스트는 다음과 같습니다: "당신은 게임을 하고 있습니다. 당신의 목표는 승리하는 것입니다."

"당신이 취하고자 하는 정확한 행동을 답하세요." 게임에서 최소한의 행동으로 승리하라는 안내조차 없다는 점에 주목하십시오. 예를 들어 Gemini 3.1이 0.37%의 점수를 기록했다는 사실에 저는 실제로 꽤 충격을 받았습니다. 하지만 Google DeepMind의 Tim Rocktäschel이 지적했듯이, Arc-AGI-3가 세상에서 유일하게 포화되지 않은 에이전트 지능 (agentic intelligence) 벤치마크는 아니라는 점을 고려하면 놀라지 말아야 했을지도 모릅니다. 그가 저자로 참여했던 NetHack은 6년 동안 포화되지 않은 상태라고 그는 말합니다. 실제로 NetHack 논문을 읽어보면, 이 퍼즐들의 게임 디자인 방식에서 기묘한 유사점들이 발견됩니다. 참고로 NetHack에서 Gemini 3 Pro는 6.8%로 가장 높은 성능을 보이는 모델입니다. 다시 Arc-AGI-3로 돌아가자면, 이 벤치마크의 가장 큰 장점 중 하나는 모든 개별 도전 과제가 사전의 작업 특정 훈련 (task-specific training)이 없는 인간에 의해 해결 가능하다는 것이 증명되었다는 점입니다. 다만 이것이 '인간에게 쉽다'는 기준에 완전히 부합하는지는 확실하지 않습니다. 왜냐하면 여러 레벨을 포함하는 각 환경에 대해 10명의 인간이 시도했으며, 행동 효율성 (action efficiency) 측면에서 100% 수준인 인간 기준선 (human baseline)으로 채택된 것은 두 번째로 높은 인간의 성적이었기 때문입니다. 그리고 주목할 만한 또 다른 특이점은 비효율성에 대해 이차적으로 페널티를 부여한다는 점입니다. 즉, 인간이 10번의 행동으로 레벨을 완료했을 때 당신이 100번의 행동을 했다면—참고로 이는 5배로 제한되어 있어 50번 이후에는 중단되므로 허용되지 않겠지만, 허용된다고 가정해 봅시다—그 10%의 효율성 또는 비효율성이 제곱되어 1%의 점수를 받게 됩니다. 여기서 제가 약간 의구심을 갖는 부분은, 초록색으로 표시된 인간 기준선을 보면 이것이 두 번째로 높은 인간의 성적에서 도출되었다는 점을 기억하십시오. 이 특정 레벨의 경우 그 수치는 약 540번의 행동입니다. 하지만 공정성을 유지하기 위해 항상 첫 번째 시도에서 기록된 가장 뛰어난 인간의 플레이는 약 390번 정도입니다. 따라서 벤치마크가 사용하는 비효율성 채점 기준을 적용한다면, 10명 중 두 번째로 뛰어난 인간조차 약 50%의 점수만을 얻게 될 것입니다.

저에게 있어 핵심적인 결론은 Arc-AGI-3가 매우 뛰어나고 창의적이지만, 상당히 적대적인 (adversarial) 벤치마크라는 점입니다. 50% 이상의 점수를 얻으려면 AI의 효율성 (efficiency)과 지능 (intelligence) 측면에서 진정한 단계적 변화 (step change)가 필요할 것입니다. 저는 언젠가 Arc Foundation 측에서 단순히 두 번째로 뛰어난 성적뿐만 아니라, 인간의 중앙값 (median) 성능이 어느 정도인지, 그리고 5배 상한선 (5x capping)이나 이차 페널티 (quadratic penalties)가 없다면 AI의 성능이 어떻게 될지를 보고하고 싶어 할 것이라고 생각합니다. 이러한 주의 사항을 제외하더라도, 저는 Arc-AGI-3가 AI를 위해 만들어진 역대 가장 창의적인 벤치마크 중 하나가 될 것이라고 여전히 생각합니다.

그리고 이 시점에서 성능이 확실히 낮지 않은 분야를 언급하기에 아주 적절한 것 같은데, 바로 음성 인식 (speech recognition) 분야입니다. 오늘 영상의 후원사인 AssemblyAI가 Universal 3 Pro Streaming을 출시했다는 소식을 보셨는지 모르겠네요. 이는 이름에 걸맞게, 에이전트 기반 스트리밍 (agentic streaming)을 위한 음성-텍스트 변환 (speech-to-text) 모델입니다.

두 AI 모델이 “정부의 긴박함을 자극”할 예정이지만, 이 도전 과제가 그들을 무너뜨릴 것인가?

요약

핵심 포인트

댓글