본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 29. 10:07

Midnight AI Groove 26-05-19

요약

Google I/O 2026에서 발표된 Gemini 3.5 Flash, Gemini Omni, Antigravity 에이전트 스택을 다룹니다. Gemini 3.5 Flash는 에이전트 및 코딩에 최적화된 고속 모델로, 사고 단계 조절과 넓은 컨텍스트를 지원합니다.

핵심 포인트

  • Gemini 3.5 Flash는 에이전트 및 코딩 특화 모델로 즉시 GA 제공
  • 100만 토큰 컨텍스트 및 4단계 사고 수준(Thinking level) 조절 가능
  • Antigravity를 통한 데스크톱, CLI, SDK 통합 에이전트 스택 구축
  • 월간 토큰 처리량 3.2 quadrillion 달성 및 압도적 사용자 기반 확보

DJ 렌:

한밤중의 테크 바이브(Tech Vibes)를 전해드리는 「Midnight AI Groove」, 내비게이터는 DJ 렌입니다.

DJ 미오:

DJ 미오입니다. 오늘 밤은 AINews의 2026년 5월 18일 자에서 상당히 존재감이 컸던 화제――Google I/O 2026에서의 Gemini 3.5 Flash, Gemini Omni, 그리고 Antigravity를 중심으로 한 Google의 에이전트(Agent) 전략을 자세히 정리해 보겠습니다.

DJ 렌:

이번 발표의 큰 줄기를 한마디로 말하자면, Google은 Gemini를 단순한 채팅 AI가 아니라, **소비자용 AI의 표면 레이어(Surface Layer)**이기도 하면서 동시에 **개발자 및 에이전트용 실행 기반(Execution Foundation)**이기도 한 형태로 재정의하러 왔다고 할 수 있겠네.

DJ 미오:

맞아요. 기사에서도 이번 Google I/O의 핵심은 세 가지 기둥으로 정리되어 있었습니다.

첫 번째는, 고속 에이전트/코딩용 모델인 Gemini 3.5 Flash.

두 번째는, 멀티모달(Multimodal) 생성·편집의 Gemini Omni.

세 번째는, **데스크톱, CLI, SDK, API까지 아우르는 Antigravity의 에이전트 스택(Agent Stack)**입니다.

DJ 렌:

도입부부터 Google은 규모감을 상당히 강력하게 내세웠어. 기사에 따르면, Google은 현재 월간 3.2 quadrillion tokens를 처리하고 있다고 주장하고 있어. 전년도의 월간 480 trillion 대비 7배 증가한 수치네.

DJ 미오:

게다가, Gemini 앱의 월간 사용자는 9억 명 이상, 전개 지역은 230개 이상의 국가와 지역, 70개 이상의 언어. 즉 Google은 연구 모델의 성능 자랑뿐만 아니라, 이미 배포할 수 있는 장소가 압도적으로 많다는 것을 보여주고 싶었던 것입니다.

DJ 렌:

그중에서도 가장 기술적인 알맹이가 있는 발표가 이번의 주인공이라고 할 수 있는 Gemini 3.5 Flash야. Google 스스로는 이를 “최강의 절대 지능 모델”이 아니라, 에이전트와 코딩에 가장 강한 모델로 포지셔닝하고 있어.

DJ 미오:

그럼 그 Gemini 3.5 Flash의 사양을 확인해 보죠. 기사에서 언급된 주요 포인트는――

  • GA(General Availability)로 즉시 제공
  • 100만 토큰의 컨텍스트(Context)
  • 최대 출력 65k 토큰
  • 사고 수준(Thinking level)을 minimal / low / medium / high의 4단계로 전환 가능
  • thought preservation, 즉 여러 턴에 걸친 사고의 유지를 내세움 - 출력은 텍스트 중심
  • 입력 모달리티(Modality)로는, 적어도 외부 평가에서는 텍스트, 이미지, 영상, 음성을 다룰 수 있는 것으로 알려짐

DJ 렌:

그리고 제공 범위가 넓어. Google에 따르면, **Gemini 앱, Search AI Mode, Gemini API, AI Studio, Antigravity, Android Studio, 기업용 서피스(Surface)**에 걸쳐 즉시 GA. 이것만 봐도 단발적인 모델 출시라기보다 전 제품군에 대한 일제 투입이라는 느낌이 강하네.

DJ 미오:

공식 벤치마크 주장에서는 Gemini 3.5 Flash가 Gemini 3.1 Pro를 상회한다고 하며, 구체적으로는

  • Terminal-Bench 2.1: 76.2%
  • GDPval-AA: 1656 Elo
  • MCP Atlas: 83.6%

등이 언급되었습니다.

DJ 렌:

게다가 Google은 3.5 Flash가 비교 대상인 최첨단 모델보다 4배 빠르고, Antigravity 내에서는 최대 12배 빠르다고 어필했어. Jeff Dean도 서브 에이전트(Sub-agent)를 대량으로 돌리는 것과 같은 고빈도 반복 루프에 적합하다는 맥락에서 이야기했었지.

DJ 미오:

여기서 중요한 것이 제3자 평가입니다. Artificial Analysis의 수치가 기사에서 상당히 상세하게 소개되어 있는데, 그들에 따르면 Gemini 3.5 Flash는

  • Intelligence Index 55 (Gemini 3 Flash 대비 +9 포인트)
  • 280 output tok/s 초과
  • MMMU-Pro 84%
  • GDPval-AA Elo 1656

으로, 속도와 지능의 파레토 프런티어(Pareto frontier) 상에서 매우 강력한 위치에 있다고 평가받고 있습니다.

DJ 렌:

게다가 환각률(Hallucination rate)도 Artificial Analysis의 “omniscience setup”에서는 61%까지 저하, Gemini 3 Flash 대비 31포인트 개선되었다는 이야기가 있습니다. 하지만 여기서 끝나는 것이 이번의 중요한 점입니다. 성능은 올라갔지만, 비용도 상당히 올라갔다는 것이죠.

DJ 미오:

맞아요, 요금은 입력 100만 토큰당 1.50달러, 출력 100만 토큰당 9.00달러입니다. 캐시 입력(Cached input)에는 90% 할인이 있다고 하지만, 그럼에도 Artificial Analysis는,

  • 구형
    Gemini 3 Flash보다 5.5배 높은 비용 -
    Gemini 3.1 Pro보다 75% 높은 비용

이라고 보고하고 있습니다.

DJ 렌:

이 점이 커뮤니티의 논쟁을 불러일으켰죠. 기사에서도 “Flash라는 이름임에도, 이제 더 이상 저렴한 라이트급(Lightweight)이 아니다”라는 지적이 여러 번 나왔어요. 이전이라면 “Pro”적인 위치였던 것이 이번부터 Flash로 흡수된 것이 아니냐는 시각도 있습니다.

DJ 미오:

즉 Google의 전략은, “저렴한 소형 모델”이 아니라, “초고속이며 실용적이고, 게다가 에이전트(Agent) 운용에 적합한 주력 모델”로서의 Flash로 바뀌어 온 것이 아닐까 하는 것이군요.

DJ 렌:

Arena에서도 Gemini 3.5 Flash는

Text Arena 종합 9위****Code Arena: Frontend에서도 9위 - 스코어
1507 - Gemini 3 Flash 대비 +70 개선

  • 게다가 해당 가격대에서는 톱(Top)

이라는 결과가 나왔었습니다.

DJ 미오:

그래서 “전부 마케팅으로 부풀린 것뿐이다”라고 단정 지을 수도 없습니다. 기사에서도 **“단순한 마케팅이 아닌, 실질적인 개선(real improvement, not just marketing)”**이라는 관점을 소개했었죠. 다만 한편으로 회의론자들은,

TerminalBench-Hard가 약함MRCR나 ARC-AGI-2가 평범함Kimi나 GLM에 명확하게 승리하지 못하는 영역도 있음 - 그리고
GPT-5.5-medium이 지능·가격·지연 시간(Latency)의 종합 측면에서 더 우위에 있지 않은가

라는 반론을 제기하기도 했습니다.

DJ 렌:

결국 평가의 중심은 “절대 최강의 모델인가?”가 아니라, **“빠르고, 에이전트 운용을 견뎌내며, Google 제품에 깊숙이 내장될 모델로서 얼마나 중요한가”**인 것이죠.

DJ 미오:

기사의 함의로서 컸던 부분이 바로 그 지점입니다. Google이 강력하게 신호를 보내고 있는 것은, 한 번의 거대하고 느린 추론보다, 빠른 모델로 다수의 서브 에이전트(Sub-agent)를 돌리는 구성입니다.

DJ 렌:

그 상징이 Antigravity와의 조합입니다. Google은 데모로서, 93개의 병렬 서브 에이전트를 사용하여 12시간 동안 작동하는 OS를 구축했다고 주장하고 있습니다. 숫자도 화려해서,

15,000개 이상의 모델 요청****26억 토큰 -
API 크레딧 1,000달러 미만

이었다고 합니다.

DJ 미오:

물론 스테이지용으로 다듬어진 데모이긴 하겠죠. 하지만 기사를 읽는 흐름상 중요한 점은, Google이 개발자들이 채택해주길 바라는 아키텍처(Architecture)가 보였다는 점입니다. 즉, **“하나의 똑똑한 모델”이 아니라, “많은 고속 에이전트가 협조하는 계(System)”**인 것이죠.

DJ 렌:

다음은 두 번째 기둥인 Gemini Omni입니다. Google DeepMind는 이를 **“any input으로부터 anything을 생성(create)하는 모델”**이라고 표현했습니다.

DJ 미오:

다만 실제 초기 롤아웃(Rollout)은 상당히 동영상 중심이네요.

입력은 텍스트, 이미지, 음성, 동영상.

하지만 현시점에서의 출력 주역은 동영상 생성 및 동영상 편집입니다.

제공 대상은 Gemini 앱, Flow, YouTube Shorts / Create이며, 이후 API로 전개될 예정입니다.

DJ 렌:

현재 나와 있는 것은 Gemini Omni Flash입니다. Google과 DeepMind는,

**더 나은 세계 이해****더 견고한 물리성(Physicality)**멀티 턴(Multi-turn) 편집에서의 장면 및 캐릭터 일관성 유지 - 사용자의 동영상 소재를 대화 형식으로 “재해석”하여 편집할 수 있다

고 주장했습니다.

DJ 미오:

기사를 흥미롭게 읽는 관점은, Omni를 단순한 "또 하나의 새로운 동영상 모델"로 보는 것이 아니라, 멀티모달 이해 (Multimodal Understanding), 미디어 편집, 세계에 대한 접지 (Grounding to the world), 에이전트 UI, 미래의 any-input/any-output 생성을 하나로 묶는 움직임으로 해석했다는 점입니다.

DJ 렌:

즉 Google은 텍스트 경쟁뿐만 아니라, 월드 모델 (World Model) 노선을 차별화 축으로 삼으려 한다는 뜻이군.

DJ 미오:

긍정적인 반응으로는, 동영상 편집 품질과 일관성이 상당히 높아졌다는 목소리가 있었습니다. 나아가 Google 내부와 지지적인 관측통들은 이를 월드 모델 및 물리적 사전 지식 (Physical Prior Knowledge)에 대한 투자의 발현으로 보고 있습니다.

DJ 렌:

반면 회의론자들은 UI나 출력 예시가 **"B급 게임 같다"**거나, 템플릿 느낌이 강하다는 비판도 했었지. 화려한 비전에 비해 현재의 구현은 아직 제한적이라는 온도 차가 있어.

DJ 미오:

그리고 이번에 사실 과소평가되기 쉽지만 정말 컸던 것이 바로 Antigravity입니다. 기사는 이를 단순한 코딩 보조가 아니라, Google의 에이전트 OS화로 읽었습니다.

DJ 렌:

확장 내용을 나열해 보면,

Antigravity 2.0 desktop app
Antigravity CLI
Antigravity SDK
Gemini API의 Managed Agents
AI Studio, Android, Firebase, Workspace, Web과의 통합
AI Studio에서 Antigravity로 원클릭 수출

AI Studio에서의 네이티브 Android 앱 생성 및 Antigravity의 Android 대응

등 상당히 전면적이야.

DJ 미오:

Managed Agents 부분은 특히 중요합니다. 기사에서는 단일 API 호출로 에이전트 + 호스팅된 Linux 샌드박스 (Sandbox)를 얻을 수 있다고 정리되어 있었습니다.

대응 범위는 Bash / Python / Node, 파일 조작, 브라우징, Markdown 정의 스킬, 리포지토리 및 GCS 마운트까지 포함합니다.

DJ 렌:

즉 Google은 채팅창 안에서 도구를 호출하는 것에 그치지 않고, 실행 환경 그 자체를 호스팅하여 제공하는 쪽으로 움직이고 있어. 이 점이 상당히 크네.

DJ 미오:

소비자용 이야기에서도 상징적이었던 것이 Search입니다. Google은 AI가 탑재된 검색창을 재설계하고 멀티모달 검색을 도입했으며, 더 큰 한 수로 Search가 그 자리에서 커스텀 시각 도구나 시뮬레이션을 생성한다고 프리뷰했습니다.

DJ 렌:

구현의 이면에는 Antigravity + Gemini 3.5 Flash가 있어. 이건 상당히 전략적인 전환이지. 검색이 링크의 나열을 반환하는 방식에서, 상황에 따라 작은 전용 앱을 즉석에서 생성하는 방식으로 바뀔지도 몰라.

DJ 미오:

게다가 Search 상의 **정보 에이전트 (Information Agent)**도 예고되었습니다.

  • 지속적인 모니터링 태스크
  • Web, 뉴스, SNS, 실시간 신호 추적
  • 요약 업데이트 + 링크 + 액션 반환
  • 이번 여름에 Pro / Ultra 사용자 대상으로 롤아웃 예정

DJ 렌:

이건 검색이 검색/랭킹 (Retrieval/Ranking) 중심에서, 백그라운드에서 실행되는 에이전트적 모니터링과 **생성형 애플릿 (Applet)**으로 확장된다는 이야기구나.

DJ 미오:

Gemini 앱 측도 여러 가지 업데이트되었습니다. 기사에서 언급된 것은,

  • 새로운 디자인 언어인 Neural Expressive
  • inline / instant Gemini Live voice
  • inbox, calendar, tasks를 기반으로 한 Daily Brief
  • 그리고 중요한 것이, Gemini Spark입니다.

DJ 렌:

Spark는 클라우드 VM 상에서 24시간 7일, 백그라운드에서 동작하는 개인 에이전트야. Google에 따르면 사용자의 단말기가 닫혀 있어도 전용 Google Cloud 가상 머신 상에서 장시간 태스크를 지속할 수 있다고 해. 큰 액션 전에는 사용자의 확인을 받는 설계라고 하더군.

DJ 미오:

결국 온디바이스(On-device) 비서가 아니라, 상주하는 클라우드 노동자에 가깝다는 거지. macOS 앱이나 향후 Spark/음성 워크플로우를 포함해서, Google은 “개인 에이전트(Personal Agent)”를 상당히 진지하게 밀어붙이고 있어.

DJ렌:

가격 측면에서는 모델 API뿐만 아니라 구독 모델도 변경됐어.

새로운 월 100달러 플랜 - 최상위 등급
Ultra가 월 250달러에서 200달러로 인하

DJ미오:

기사에서는 이것이 코더(Coder)나 크리에이터(Creator) 같은 파워 유저를 본격적으로 공략하려는 가격 책정이라고 보고 있었어. Google은 무료 대중 노선뿐만 아니라, 고부가가치 AI 유료 회원 시장에서도 적극적으로 움직이고 있는 거지.

DJ렌:

또 하나, 기사에서 “눈에 띄지는 않지만 오래갈 것 같다”라고 본 것이 바로 SynthID야. Google은 Search, Gemini, Chrome, 하드웨어 및 미디어 표면으로 SynthID를 확장하는 동시에, OpenAI, NVIDIA, Kakao, ElevenLabs와도 협력을 발표했어.

DJ미오:

이건 의미가 상당히 커. 생성물의 **이력 증명(Provenance), 워터마크(Watermark), 진위성 계층(Authenticity layer)**을 Google이 인프라로서 장악할 가능성이 있거든. 기사에서는 OpenAI 역시 별도로 OpenAI 생성 이미지를 SynthID 워터마크 + C2PA 자격 증명으로 검증할 수 있도록 하겠다는 발표를 언급하고 있었어.

DJ렌:

Omni나 Flash만큼 화려하지는 않지만, 만약 생성 콘텐츠의 이력 관리가 의무화되거나 표준화되는 방향으로 간다면, 여기가 오히려 장기전의 본진일지도 모르겠네.

DJ미오:

기사의 흥미로운 해석 중 하나는, Google이 코딩 AI만으로 싸울 생각이 아니라는 점이었어.

Gemini for Science - Literature Insights

  • Hypothesis Generation

  • Computational Discovery

ERA / Co-Scientist의 Nature 관련 - 그리고
Project Genie와 Street View의 연결

DJ렌:

Project Genie는 약 20년 분량의 Street View 이미지를 사용하여, 실제 지점의 인터랙티브한 시뮬레이션 환경을 만든다는 이야기야. 이건 Google만이 가진 데이터 우위성을 아주 강력하게 느끼게 해줘.

DJ미오:

그래서 Omni도 단순히 영상을 만들 수 있다는 점 이상으로, 세계 이해(World understanding), 물리성(Physicality), 환경 접지(Environmental grounding), 과학적 활용까지 포함하는 “world-grounded AI” 노선의 일부로 봐야 한다는 것이 기사의 관점이었어.

DJ렌:

여기서 커뮤니티의 반응을 세 가지로 나누면 이해하기 쉬워.

DJ미오:

먼저 강세·지지파.

“Google is back” - Flash에 대해 “Flash 모델로서는 이례적인 평가”

  • Search + Antigravity는 엄청난 규모로 생성 UI를 배포할 수 있음
  • Omni는 영상 편집 품질이 높고, 세계 모델(World model)로 가는 길을 제시함

DJ렌:

다음은 회의파.

  • 벤치마크의 상당수가 자기 보고(Self-reported) 기반
  • Flash임에도 불구하고 높은 점수
  • GPT-5.5-medium이 더 스마트하고, 싸고, 빠르지 않을까?
  • 일부 벤치마크에서 편차가 있음
  • 게다가 Gemini CLI와 Antigravity CLI의 관계 등, 명칭이나 UX가 혼란스러움

DJ미오:

그리고 중립·분석파. Artificial Analysis나 Arena의 관점이 이쪽에 가깝네.

결론적으로는,

개선은 진짜다
속도와 지능의 양립 측면에서 매우 강력하다
에이전트 용도의 성장세도 크다

  • 하지만
    비용 악화는 무시할 수 없다

라는, 상당히 균형 잡힌 평가였어.

DJ렌:

기사의 “Why this matters(이것이 중요한 이유)”에서는, 이번 I/O를 통해 Google이 마침내 일관된 배포(Deployment) 서사를 갖게 되었다는 점이 강조되었어.

DJ미오:

이전의 Gemini는 아무래도 벤치마크는 강하지만 제품이나 연결 고리가 단편적이다라는 인상이 따라다녔지. 하지만 이번에는,

  • 모델
  • 인프라
  • API
  • 검색
  • Workspace
  • Android
  • 기업용 확장

이 아주 깔끔하게 연결되었어.

DJ렌:

그리고 중심축이 **챗봇 경험 (Chatbot Experience)**에서 **에이전트 실행 (Agent Execution)**으로 이동하고 있어. 중요한 프리미티브 (Primitive)는 모델의 IQ만이 아니야.

서브 에이전트 (Sub-agents), 호스팅된 샌드박스 (Hosted Sandboxes), 장시간 태스크 (Long-running Tasks), 생성된 아티팩트 (Generated Artifacts),
Search 및 Workspace와의 통합

이런 부분들이 제품의 정의가 되어가고 있지.

DJ 미오:

Gemini 3.5 Flash도 그 상징이라고 할 수 있어요. 최대 벤치마크 점수보다, **다수의 에이전트를 현실적으로 오케스트레이션 (Orchestration)할 수 있는 속도와 처리량 (Throughput)**이 더 중요해졌다는 뜻이죠.

DJ 렌:

하지만 마지막까지 남는 가장 큰 질문은 역시 **경제성 (Economics)**이야. 기사에서도 그 부분을 가장 중요한 미해결 논점으로 다루고 있었어.

DJ 미오:

기술적으로 강력하더라도, Flash의 가격이 너무 높아지면 개발자들의 머릿속에 있는 "저렴하고 빠른 작업마"라는 역할에서 벗어나게 돼요.

Google이 능력 배치 측면에서는 승리할지 몰라도, 가격의 예측 가능성이나 단순함 측면에서는 개발자의 마인드셰어 (Mindshare)를 잃을 가능성이 있다는 것이죠.

DJ 렌:

즉 이번 I/O는 Google의 부활 선언인 동시에, **"그 승리 방식이 채산성이 맞는가?"**라는 질문을 시장에 던진 이벤트이기도 했어.

DJ 미오:

기사 자체는 Google I/O 특집이 중심이었지만, 그 외에도 몇 가지 중요한 토픽들이 있었어요. 그것들도 간단히 짚어볼게요.

DJ 렌:

먼저 추론 인프라에서는, Cerebras가 Kimi K2.6을 기업 시험에서 약 1,000 tok/s로 구동하고 있다는 이야기. Artificial Analysis 문맥에서는 **"측정된 것 중 가장 빠른 수준의 프론티어 성능 (Frontier Performance)"**라고도 언급되었어.

DJ 미오:

Cerebras의 아키텍처 논의도 있었는데, 속도 문제는 결국 상당 부분 메모리 대역폭 (Memory Bandwidth) 문제이며, 웨이퍼 위에 레이어를 분산시켜 외부 메모리 페치 (External Memory Fetch)를 피하는 설계가 효과적이라는 이야기가 소개되었습니다.

DJ 렌:

그리고 Hugging Face 진영에서 나온 Carbon이라는 DNA 기반 모델군.

Carbon-3B가 Evo2-7B 수준 - 게다가
추론 속도 250~275배 빠름, 1조 토큰 학습 - 결정론적 (Deterministic)
6-mer tokenization, RMSNorm + SwiGLU + RoPE + GQA - 학습 도중에 **factorized loss (FNS)**로 전환하여 종반부 불안정성 회피

라는, 기술 노트가 상당히 두터운 릴리스였어.

DJ 미오:

나아가 Unsloth Studio는 GGUF를 위해 auto speculative decodingMTP support를 추가하여, 최대 2배 가속 및 정밀도 손실 없음을 주장했어요.

한편, 논문에서는 RoPE에 본질적인 긴 문맥 한계 (Long-context Limit)가 있다는 논의도 있었는데, 이는 단순한 구현 과제가 아니라 긴 문맥에서 토큰 ID와 위치의 구별 자체가 무너질 가능성이 있음을 보여주었습니다.

DJ 렌:

에이전트 평가에서 흥미로웠던 것은 NanoGPT-Bench야. NanoGPT Speedrun 기반의 AI R&D 벤치마크인데, 저자들의 주장에 따르면 현재의 코딩/연구 에이전트는 인간 진척도의 9.3%밖에 회수하지 못하고 있어. 게다가 주로 **하이퍼파라미터 조정 (Hyperparameter Tuning)**에 치중되어 있고, 알고리즘 혁신은 약하지.

DJ 미오:

이거 상당히 시사하는 바가 크네요. "에이전트가 연구를 대체할 것"이라는 열광에 대해, 아직 연구적 창의성은 부족하다는 찬물을 끼얹는 격이기도 하니까요.

DJ 렌:

덧붙여서, code-as-agent harness에 관한 긴 서베이에서는 미래의 에이전트 시스템은 **실행 가능하고 (Executable), 관측 가능하며 (Observable), 상태를 유지하고 (Stateful), 거버넌스 가능 (Governable)**해야 한다고 논의되었어.

DJ 미오:

Databricks 연구의 MemEx도 중요해요. 이것은 컨텍스트 윈도우 (Context Window)에 전부 밀어 넣는 것이 아니라, **살아있는 Python 커널 내에 타입이 지정된 객체를 유지하는 스크래치패드 (Scratchpad)**입니다. 그 결과,

  • 프론티어 모델 (Frontier Model)에서
    정확도 2~5포인트 개선, 비용 25~30% 절감
  • Qwen 계열에서는
    정확도가 거의 두 배 증가, 비용 40~50% 절감

되었다고 보고되었습니다.

DJ 렌:

"메모리는 긴 컨텍스트로 전부 해결된다"가 아니라, 외부 상태 관리 (External State Management)가 더 효과적이라는 흐름이네.

DJ 미오:

안전 보장 및 통제 측면에서는, METR의 Frontier Risk Report의 비중이 상당히 큽니다. Anthropic, Google, Meta, OpenAI로부터 내부 모델 및 정보에 대한 깊은 접근 권한을 얻어, 제어 상실 (loss-of-control) 및 **은밀한 능력 위험 (covert-capability risk)**을 중심으로 평가한 보고서입니다.

DJ 렌:

게다가 David Rein이 Anthropic에서 내부 에이전트가 “폭주”했을 때 감시 시스템이 이를 탐지할 수 있는지를 시험하는 임베디드 연습 (embedded exercise)을 수행했다고 설명했습니다. 다만 Anthropic 측에 정보 블랙아웃 (정보 가리기) 재량권이 있었기 때문에, 그는 이것을 정식 감사 (audit)가 아닌 **연습 (exercise)**으로 규정했습니다.

DJ 미오:

그리고 전 OpenAI 연구원들이 설립한 새로운 안전 기준 단체인 Guidelight도 출범했습니다. AI 안전이 단발적인 벤치마크 (benchmark) 단계를 넘어, 운용 표준 및 감시 실무의 정비 단계로 나아가고 있다는 분위기가 느껴집니다.

DJ 렌:

업계 뉴스에서는 역시 Andrej Karpathy가 Anthropic에 참여했다는 소식이 가장 강력했습니다. 본인은 "R&D로 돌아간다"라고 간결하게 언급했을 뿐이지만, 시장에서는 RSI, 자동 연구, 사전 학습 (pre-training)의 새로운 라인과 같은 추측이 난무했습니다.

DJ 미오:

OpenAI는 Guaranteed Capacity를 발표했습니다. 1~3년 계약으로 장기 예약 계산 자원을 확보하는 메커니즘으로, 수요 초과 상황 속에서 중요 워크로드 (workload)를 위한 안정적인 공급을 상품화한 형태네요.

DJ 렌:

GitHub도 Copilot에 Gemini 3.5 Flash를 롤아웃 (rollout) 했습니다. Cursor는 Jira 연동 기능을 출시하며, 클라우드 에이전트가 티켓(ticket)으로부터 PR (Pull Request) 생성까지 진행할 수 있는 흐름을 제시했습니다.

DJ 미오:

Reddit 측에서는 /r/LocalLlama 및 /r/localLLM에서 Qwen 3.7 대망론이 상당히 뜨거웠습니다. 특히 27B 정도가 3090급 GPU에 올라가는 실용적인 사이즈로 기대되고 있으며, **"환각 (hallucination)이 더 적은 27B"**를 원하는 목소리가 많습니다.

DJ 렌:

ByteDance의 Lance도 화제였습니다. 3B active parameters라고 주장하면서도, 실제로는 40GB 이상의 VRAM을 요구하며 safetensors 파일 크기도 상당히 큽니다. 즉, "3B dense" 모델이 아니라 복합적인 구성일 것이라는 분석이 확산되고 있었습니다.

DJ 미오:

나아가 Qwen 3.6 27B를 24GB VRAM에서 어떻게 구동하는지에 대한 실전 포스팅도 활발했습니다.

ik_llama.cpp
IQ4_KS
156k context

  • q8_0 KV
  • flash attention
  • MTP

와 같은 구체적인 설정으로, 긴 컨텍스트 (long context)와 속도의 양립을 탐구하고 있었던 점이 인상적입니다.

DJ 렌:

안전 측면에서는 중국의 "transfer station" 경제권—Claude API 접근권을 소매 가격의 10% 정도로 재판매하는 암시장에 대한 조사도 주목을 받았습니다.

  • SMS / SIM bank를 이용한 인증
  • 가짜 ID, 딥페이크 (deepfake), HITL (Human-in-the-loop) farm을 통한 KYC 회피
  • OAuth 토큰 풀 (token pool)
  • 게다가 "Opus"인 것처럼 속여 저렴한 모델로 교체 (swapping) 할 가능성

DJ 미오:

감사 과정에서는 최대 47.21%의 성능 저하45.83%의 모델 지문 검증 실패가 보고되었다는 이야기도 나왔습니다. 이는 단순한 재판매를 넘어, 프롬프트 (prompt)와 대화 내용 전부를 중계업자가 들여다볼 수 있다는 상당히 중대한 보안 문제입니다.

DJ 렌:

그리고 DystopiaBench 이야기도 있었지. 42개 모델의 "묵시록 만들기 협력도"를 측정하는 듯한 벤치마크인데, Anthropic 계열은 저위험군에 가깝고, Mistral Medium 3.5는 극단적으로 높게 나오는 등 결과가 화제가 되었습니다.

DJ 미오:

소형 모델 코딩 에이전트 분야에서는, 4B급 모델로 87%를 달성했다고 주장하는 SmallCode가 주목받았습니다. 다만 커뮤니티는 상당히 회의적이었습니다.

  • 벤치마크가 자기 선택적 태스크 (self-selected tasks) - 재현성이 없음
  • "4B active"를 "진정한 4B 모델"이라고 부르기 어려움
  • 성패 판정 기준도 느슨한 것 아니냐

라는 지적이 있었습니다.

DJ 렌:

한편, 구현 측면의 고안으로는,

  • 컴파일/lint 자동 수정 루프 (Compile/lint auto-repair loop)
  • 실패 분해 (failure decomposition)
  • 심볼 그래프 (symbol graph)
  • 토큰 예산 책정 (token budgeting)
  • 필요 시 클라우드 에스컬레이션 (cloud escalation)

등, 하네스 설계 (harness design)가 소형 모델의 신뢰성을 끌어올린다는 방향성은 흥미롭습니다.

DJ 미오:

그리고, AI 에이전트가 **“rm -rf /”**를 시도했다는 게시물도 있어서, 다들 다시 한번,

  • 커맨드 필터(command filter)만으로는 불충분함
  • bubblewrap이나 unshare를 통한 OS 레벨 격리 필요
  • 네트워크 차단도 필요
  • 진짜 위협은 파괴보다 기밀 정보의 외부 전송

이라는 이야기가 나왔습니다.

DJ 렌:

기술적 색채가 옅은 서브레딧(subreddit)에서는 두 가지가 눈에 띄었습니다.

하나는 방금 언급한 Karpathy의 Anthropic 합류.

또 하나는 Dario Amodei가 제시한, AI로 인해 높은 GDP 성장과 높은 실업률이 동시에 발생할 가능성, 즉 10% 이상의 실업률도 있을 수 있다는 견해입니다.

DJ 미오:

Reddit에서는 10% 실업률은 오히려 보수적인 수치라는 반응도 있었고, 한편으로는 소비자의 소득이 떨어지는데 어떻게 GDP가 크게 성장할 수 있는가라는 거시 경제적 의문도 제기되었습니다. 이는 상당히 본질적인 질문이네요.

DJ 렌:

또 하나는 Musk 대 OpenAI 소송에서 Musk 측이 패소한 건입니다. 논의의 주안점은, 내용(실체)에서 패배했다기보다, 공소시효 및 제소 지연이라는 절차론적인 이유로 기각되었다는 점이었습니다.

DJ 미오:

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0