DeepMind 연구원 2명 이탈, AA-Briefcase 벤치마크 공개, OpenAI의 Astral 인수 및 Codex 강화 소식

요약

DeepMind의 핵심 연구진 이탈, AA-Briefcase 벤치마크 결과, OpenAI의 Astral 인수 및 Anthropic의 규제 이슈 등 AI 산업의 주요 동향을 다룹니다. 인재 유출, 모델 성능 격차, 도구 통합 및 지정학적 리스크가 복합적으로 나타나고 있습니다.

핵심 포인트

Noam Shazeer와 John Jumper 등 핵심 연구진의 Google 이탈 및 경쟁사 합류
AA-Briefcase 벤치마크 결과, 최첨단 AI의 실제 지식 작업 해결률은 매우 저조함
OpenAI의 Astral 인수를 통한 Codex 플랫폼의 Python 개발 도구 강화
Anthropic 모델의 글로벌 금지 사태와 관련된 지정학적 및 규제적 갈등

Google DeepMind에서 노벨상급 연구자 2명이 48시간 만에 유출되었습니다. 새로운 벤치마크인 AA-Briefcase는 최첨단 AI가 실제 지식 작업의 97%에서 실패한다는 사실을 밝혀냈습니다. OpenAI는 Python 도구 기업 Astral(uv, ruff)을 인수하여 Codex를 강화했습니다. Anthropic Fable 5 금지 사태의 전말도 공개되었습니다.

전례 없는 인재 유출이 발생했습니다. Transformer 논문 「Attention Is All You Need」의 공동 저자이자 Gemini 공동 책임자인 Noam Shazeer가 OpenAI로 이직했습니다. Google은 2024년 Shazeer를 Character.AI로부터 영입하는 데 약 27억 달러를 투자한 바 있습니다. 불과 24시간 후, AlphaFold 팀을 이끌었던 2024년 노벨 화학상 수상자인 John Jumper가 DeepMind를 떠나 Anthropic에 합류한다고 발표했습니다.

Transformer 논문의 저자 8명 전원이 Google을 떠났으며, 그중 2명이 OpenAI에 재직 중입니다. Jumper의 Anthropic 이적은 생물학 및 화학 분야 AI 연구가 Anthropic의 전략적 우선순위임을 보여줍니다. 두 사람의 퇴사는 최첨단 AI 인재가 Google에서 경쟁사로 구조적으로 유출되고 있다는 신호탄입니다.

— VentureBeat · The Decoder · aidailypost.com

🔗 aidailypost: Jumper, DeepMind에서 Anthropic으로

🔗 ITHome: Shazeer의 Google 이탈 상세 내용

Artificial Analysis가 공개한 AA-Briefcase 벤치마크는 다수의 주에 걸친 지식 작업 과제에서의 AI 능력을 냉각시켰습니다. 최고 모델인 Claude Fable 5조차도 완전 해결률은 겨우 **3%**였습니다. 과제당 비용은 0.04달러부터 31달러를 초과하는 폭을 보입니다.

이 결과는 벤치마크 성능과 실제 운영 가치 사이에 심각한 격차가 있음을 보여줍니다. AI가 코딩 벤치마크에서는 여전히 우수한 성적을 거두는 반면(GPT-5.6, Opus 4.8), 현실의 지식 작업은 기본적으로 미해결 상태로 남아 있습니다. 중국의 GLM-5.2가 3위에 오른 것은 놀라움을 안겨주었습니다.

— The Decoder · Artificial Analysis

OpenAI는 초고속 Python 도구인 uv(패키지 설치 관리자)와 ruff(린터/포매터)를 개발하는 Astral의 인수를 발표했습니다. Astral 팀과 기술은 OpenAI의 Codex 플랫폼에 통합됩니다. Codex는 현재 500만 개 이상의 주간 활성 사용자를 보유하고 있습니다.

Python과 TypeScript 코드 생성이 Codex의 주요 사용 사례인 만큼, Python 개발 도구의 고속화 및 고신뢰화는 경쟁사(Claude Code나 Cursor) 대비 우위를 구축할 것입니다. 하지만 개발자 커뮤니티에서는 uv와 ruff의 오픈소스 미래 가능성에 대한 우려가 제기되고 있습니다.

— The New Stack · ITHome

새로운 보도는 Anthropic이 Claude Fable 5와 Mythos 5를 전 세계적으로 무효화하게 된 경위를 밝혀냈습니다. 발단은 미중 AI 보안 문제가 아니라, SK Telecom(한국 최대 통신사, Anthropic에 1억 달러 투자)이 백악관으로부터 '중국과의 관계가 의심된다'고 특정된 것이었습니다.

Anthropic의 Dario Amodei CEO는 David Sacks(PCAST 공동 의장)로부터 '취약점을 수정하거나 모델을 자발적으로 중단하는 것'이라는 양자택일을 받았으나, 둘 다 거부했습니다. 이로 인해 문제는 한국에 국한된 사안에서 전 세계적인 금지 사태로 확대되었습니다. 정부는 재공개 조건으로 '제로 탈출(zero jailbreak)'을 요구하고 있지만, 보안 전문가는 이를 기술적으로 불가능하다고 보고 있습니다.

— The New Stack · Korea JoongAng Daily

OpenAI 연구원들은 진실성 및 수정 가능성과 같은 바람직한 행동 특성에 대한 강화학습(RL)이 AI 모델을 여러 무관 영역에 걸쳐 안전하게 만드는 것을 입증했습니다. 53개 벤치마크 중 44개에서 안전성 점수가 향상되었으며, 과제 성능 저하는 관찰되지 않았습니다.

이 연구는 리스크 카테고리별로 개별적인 안전 메커니즘을 구축하는 대신, 메타 특성 (meta-properties)의 육성을 통해 광범위한 안전성 향상이 가능하다는 점을 시사한다. 건강 데이터로의 훈련이 기만 내성 (deception resistance) 또한 향상시킨다는 분야 횡단적 효과도 확인되었다.

— The Decoder · aidailypost.com

NVIDIA, Carnegie Mellon University, UC Berkeley의 연구자들은 AI 코딩 에이전트 (coding agent)를 사용하여 로봇이 스스로의 훈련 프로그램을 생성한다는 획기적인 성과를 발표했다. 8대의 로봇 군집은 실제 환경의 파지 (grasping) 태스크에서 최대 **99%**의 성공률을 달성했다.

인간이 훈련 커리큘럼을 작성하거나 데모 데이터를 수집하는 대신, 로봇이 LLM 코딩 에이전트를 활용하여 태스크 분석, 훈련 코드 작성, 반복적인 자기 개선 (iterative self-improvement)을 수행한다. 창고 물류, 제조 및 가정용 로보틱스에서의 응용이 기대된다.

— The Decoder

Google이 6년 만 (Nest Audio 이후 2020년)의 스마트 스피커를 발표했다. Gemini AI를 핵심 어시스턴트로 탑재하여, Amazon Alexa (Nova 모델 채택) 및 Apple HomePod (iOS 27에서 Gemini를 탑재한 Siri)와 경쟁한다.

Gemini 통합을 통해 자연스러운 대화 기능, 쿼리 간의 문맥 인식, Google 검색을 통한 그라운딩 (grounding)이 가능해진다. 가격대는 이전 세대 Nest Audio의 $99를 따를 것으로 보이며, 소비자용 AI 하드웨어 경쟁이 격화되는 가운데 중요한 투입이 될 것이다.

— LLMBase · AI News

AI 자동 생성 콘텐츠

원문 바로가기

DeepMind 연구원 2명 이탈, AA-Briefcase 벤치마크 공개, OpenAI의 Astral 인수 및 Codex 강화 소식

요약

핵심 포인트

댓글