본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 24. 15:45

Google이 Sora의 공백을 메우고, Recursive가 자기 개선형 AI에 6억 5천만 달러를 베팅하며, 모든 것을 바꾸는 35시간짜리

요약

Alibaba의 Qwen3.7-Max가 보여준 자율적 코드 최적화 사례와 Recursive의 6억 5천만 달러 투자 유치 소식을 다룹니다. 에이전트 인프라를 구축하는 Modal의 성장과 AI의 재귀적 자기 개선(Recursive self-improvement) 기술 트렌드를 분석합니다.

핵심 포인트

  • Qwen3.7-Max의 35시간 연속 자율 커널 코드 최적화 성공
  • Recursive의 6억 5천만 달러 투자 유치 및 자기 개선 AI 개발
  • 에이전트 실행을 위한 인프라 기업 Modal의 급격한 성장
  • 강화학습을 통한 AI의 재귀적 자기 개선 가능성 제시

주방 리모델링을 위해 계약업체를 고용했다고 상상해 보십시오. 당신은 그들에게 설계도를 건네주고 주말 동안 자리를 비웠다가, 월요일에 돌아와 보니 작업이 완료된 것을 발견합니다. 단순히 주방뿐만 아니라, 업체가 필요하다고 판단하여 욕실까지 수리해 놓았고, 당신도 몰랐던 결함이 있는 회로까지 다시 배선해 두었습니다. 당신은 그 어떤 것도 요청하지 않았고, 관리하지도 않았습니다. 그들은 그저... 계속해서 일을 했을 뿐입니다. 이것이 바로 지난주 Alibaba의 Qwen3.7-Max가 수행한 일과 매우 유사합니다. 이 모델은 단 한 번의 인간 확인 없이 35시간 연속으로 실행되며 커널 코드(kernel code)를 완전히 스스로 최적화했습니다. 작업 중간에 프롬프트(prompt)를 입력할 필요도 없었고, 경로 수정도 필요 없었습니다. 그저 작업을 시작하고, 그것을 완수했을 뿐이며, 그 이상의 결과물까지 만들어냈습니다. 이는 조용하지만 거대하게 느껴지는 무언가, 즉 '보살핌(babysitting)'이 필요 없는 에이전트(agent)의 작은 데모입니다. 하지만 계약업체 비유는 거기까지입니다. 계약업체는 일이 끝나면 멈추고 집으로 돌아갑니다. 더 흥미로운 질문, 즉 당신의 마음을 계속 사로잡는 질문은 에이전트가 멈추지 않는다면 어떤 일이 벌어질 것인가 하는 점입니다. 만약 에이전트가 실행되는 동안에도 학습을 하고 있다면 어떨까요? 무엇이 효과적이었고 무엇이 그렇지 않았는지에 대한 자체 데이터베이스를 구축하고, 실시간으로 자신의 능력을 확장한다면 말입니다? 그것은 더 이상 계약업체가 아닙니다. 그것은 잠도 자지 않고 급여도 받지 않으면서, 매일 24시간 내내 점점 더 발전하는 동료에 더 가깝습니다. 인프라 업계는 이미 그 미래를 맞이하기 위해 경주하고 있습니다. Modal은 46억 5천만 달러의 기업 가치로 3억 5,500만 달러를 조달했으며, 이들의 서버리스 GPU 플랫폼은 1년도 채 되지 않아 5배 성장했습니다. 그들은 모델을 만드는 것이 아니라, 장시간 실행되는 에이전트들이 생존하는 데 필요한 배관(plumbing)을 구축하고 있습니다. 냉장고가 존재하기 전의 전력망을 생각해보십시오. 누군가는 먼저 전력망을 구축해야 했습니다. 자기 개선(self-improving) 측면에도 이제 이름이 생겼습니다. Richard Socher와 Tim Rocktäschel이 이끄는 스텔스 스타트업인 Recursive(둘 다 OpenAI와 Meta의 베테랑입니다)는 Nvidia와 AMD를 포함한 투자자들로부터 46억 5천만 달러의 기업 가치로 6억 5,000만 달러를 막 조달했습니다.

그들의 핵심 제안은 재귀적 자기 개선 (Recursive self-improvement)입니다. 즉, AI 시스템을 더 나은 AI 시스템으로 만드는 AI 시스템을 구축하는 것입니다. 이는 인간이 도구를 사용하는 방식과 근본적으로 같다는 점을 깨닫기 전까지는 마치 공상 과학 소설처럼 들리는 개념입니다. 우리는 더 나은 망치를 만들었고, 그 망치를 사용하여 공장을 지었으며, 그 공장을 사용하여 손으로는 상상조차 할 수 없었던 망치를 만드는 기계를 만들었습니다. 재귀 (Recursion)는 항상 존재해 왔습니다. Recursive는 단지 그 타임라인을 극적으로 압축하려 할 뿐입니다. 여기서 강화학습 (RL) 관점은 합리적인 추측입니다. AlphaGo와 AlphaFold가 증명했듯이, 강화학습 (RL)은 명확한 보상 신호 (Reward signal)가 존재할 때 초인적인 성능을 생성할 수 있음을 이미 입증했습니다. 더 어려운 질문은 이것입니다: "더 나은 AI"를 위한 보상 신호는 무엇인가? 그리고 누가 그것을 결정하는가? 6억 5천만 달러의 베팅은 Socher와 Rocktäschel이 그만한 가치가 있는 답을 가지고 있다고 누군가가 믿고 있음을 시사합니다. 한편, Cohere는 Apache 2.0 라이선스로 Command A+라는 2,180억 개의 파라미터 (Parameter)를 가진 모델을 출시했으나, 일부에서는 무덤덤한 반응을 보였습니다. 이는 타당한 반응입니다. 파라미터 (Parameter) 수는 이미 조용히 그 단계를 넘어선 업계에서 기묘한 과시 수단이 되어버렸기 때문입니다. 더 흥미로운 통계는 Mixture-of-Experts (MoE) 아키텍처 덕분에 그 파라미터 중 오직 250억 개만이 특정 시점에 활성화된다는 점입니다. 이를 200명의 의사가 상주하는 병원이 있지만, 한 번에 건물 안에는 25명만 있으며, 적절한 25명이 항상 적절한 환자를 위해 나타나는 상황으로 생각해보세요. 나머지는 대기 중인 상태입니다. 이것이 대규모 MoE 모델을 실제로 실행 가능하게 만드는 요소입니다. 또한 왜 더 이상 아무도 GPT-4나 Claude의 파라미터 (Parameter) 수를 실제로 공개하지 않는지도 설명해 줍니다. 숫자는 더 이상 핵심이 아니게 되었습니다. 중요한 것은 달러당, 초당, 그리고 쿼리 (Query)당 무엇을 할 수 있느냐입니다. Command A+는 1년간의 실제 기업 배포를 기반으로 구축되었으며, 이는 대부분의 벤치마크 리더보드가 조용히 무시하는 지루하고 복잡하며 문서가 많은 워크플로 (Workflow)에서 스트레스 테스트를 거쳤음을 의미합니다. 비디오 측면에서는, Google이 OpenAI가 중단했을 때 Sora가 남긴 공백을 메우기 위해 Gemini Omni를 출시했습니다.

YouTube 통합은 주목할 만한 세부 사항입니다. 이는 모델이 반드시 기존 것보다 더 뛰어나기 때문이 아니라, 배포(Distribution) 자체가 일종의 해자(Moat) 역할을 하기 때문입니다. YouTube 내부에 비디오 제작 도구를 넣는 것은 Spotify 내부에 녹음 스튜디오를 설치하는 것과 같습니다. 이미 플랫폼에 거주하는 사람들은 새로운 곳으로 이동할 필요가 없습니다. 그들은 그저 창작을 시작할 뿐입니다. 이러한 내장형 접근 방식(Embedded access)은 독립형 도구들이 쉽게 경쟁할 수 없는 방식으로 복리 효과를 내는 경향이 있습니다.

Google DeepMind의 연구는 이 모든 것과는 구조적으로 다른 무언가를 수행하고 있으며, 헤드라인을 너무 빠르게 훑어본다면 이를 놓치기 쉽습니다. AlphaProof Nexus는 수십 년 동안 전문 수학자들을 당혹스럽게 했던 수학 퍼즐인 353개의 공개 Erdős 문제 중 9개를 해결했으며, 각각 수백 달러의 컴퓨팅 비용으로 44개의 수열 추측(Sequence conjectures)을 증명했습니다. 이 시스템은 대규모 언어 모델(LLM)을 형식 증명 검증기(Formal proof verifier)인 Lean과 결합하여, 모델이 내놓는 모든 답변을 검증할 수 있게 합니다. 여기서 간과되기 쉬운 부분이 있습니다. AI가 단순히 추측하는 것이 아니라 증명하고 있다는 점입니다. 증명은 컴파일되거나 되지 않거나 둘 중 하나입니다. "대체로 맞다"는 식의 중간 단계는 없습니다. 하지만 해결하지 못한 344개의 문제 역시 해결한 9개의 문제만큼이나 흥미롭습니다. 수학은 실패가 명확한 몇 안 되는 영역 중 하나이며, 이는 AlphaProof의 오답이 단순한 노이즈가 아니라 시스템의 추론이 정확히 어느 지점에서 무너지는지에 대한 데이터임을 의미합니다. 이는 연구 측면에서 매우 귀중한 선물입니다.

Nous Research는 모델의 동작 방식에 대해 업계가 생각하는 방식을 잠재적으로 더 파괴할 수 있는, 조금 더 조용한 연구 결과를 발표했습니다. 그들의 대조적 뉴런 귀속(Contrastive Neuron Attribution, CNA) 방법은 유해한 프롬프트와 무해한 프롬프트에 대해 다르게 활성화되는 모델의 MLP 레이어 내 특정 뉴런을 식별합니다. 활성화의 단 0.1%만을 차단함으로써, 그들은 10억(1B)에서 720억(72B) 파라미터에 이르는 모델 전반에서 출력 품질을 유의미하게 저하시키지 않으면서도 거절률(Refusal rates)을 절반으로 줄였습니다. 점수는 0.97 이상을 유지했습니다.

그 함의는 매우 정밀합니다. 모델의 행동 방식을 바꾸기 위해 전체 모델을 재학습시키는 대신, 적절한 뉴런(neurons)을 찾아 그 활성도를 낮추기만 하면 된다는 것입니다. 이는 자동차의 공격적인 가속이 엔진 문제가 아니라, 스로틀 케이블(throttle cable)에 있는 특정 스프링 하나 때문이라는 사실을 발견하고 그 부품만 교체하는 것과 같습니다. 이 모든 일이 일어나는 동안 규제 환경은 매주 더 혼란스러워지고 있습니다. 강력한 AI 모델을 대중에게 공개하기 전 90일간의 연방 정부 접근권을 요구할 예정이었던 Trump의 행정 명령 계획은 기술 업계 동맹들의 반발로 폐기되었습니다. 한편, EU는 초안 가이드라인에서 고위험(high-risk) AI 카테고리 목록을 축소했습니다. 서로 반대 방향으로 움직이는 이 두 조치는 모두 동일한 문제를 가리키고 있습니다. 즉, 이토록 빠르게 움직이고, 이토록 많은 산업에 영향을 미치며, 이토록 막대한 수익을 창출하는 대상을 어떻게 통제할지 아무도 알아내지 못했다는 점입니다. 기술 기업들은 상황이 이대로 유지되도록 할 강력한 동기를 가지고 있습니다. 규제 자체가 본질적으로 잘못되었다는 주장이 아닙니다. 의미가 있을 만큼 구체적인 규제라면, 로비의 대상이 될 만큼 구체적일 수밖에 없다는 것입니다. Alibaba가 방금 35시간 동안 작동하는 자율 에이전트(autonomous agent)를 시연했고, Qwen이 세계에서 가장 유능한 오픈 웨이트(open-weight) 모델 제품군 중 하나라는 점을 고려하면, 대부분의 서구권 AI 거버넌스(governance) 논의에서 중국 관련 내용이 눈에 띄게 빠져 있다는 점은 기이합니다. EU와 미국이 규제 방식을 원하는 만큼 파편화할 수는 있겠지만, 중국을 포함하지 않는 글로벌 AI 거버넌스 프레임워크는 세계 최대 배출국을 제외한 기후 협약과 같습니다. 조약을 작성할 수는 있겠지만, 그것은 당신이 기대하는 역할을 수행하지 못할 것입니다. 오늘 뉴스레터가 실타래를 풀 듯 설명하고 있는 것은, 아직 완전히 도래하지는 않았지만 분명히 오고 있는 세상의 모습입니다. 즉, 감독 없이 작동하는 에이전트, 이들을 유지하기 위해 구축된 인프라, 수십억 달러의 기업 가치를 인정받으며 자금을 조달하는 자기 개선형(self-improving) 시스템, 그리고 이미 한발 뒤처져 있는 거버넌스 프레임워크가 공존하는 세상입니다.

이 글의 서두에서 언급한 계약자(contractor) 비유는 점차 부적절하게 느껴지기 시작합니다. 계약자는 일을 마치면 떠납니다. 하지만 지금 구축되고 있는 것은 떠나지 않습니다. 우리가 진지하게 고민해야 할 질문은 이러한 미래가 오느냐가 아닙니다. '완성(done)'의 모습이 어떠해야 하는지를 누가 결정하는지, 그리고 그 지점에 도달했을 때 과연 지켜보고 있는 사람이 있기는 한지입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0