AI Daily Digest: 2026년 5월 25일 — Grok Build CLI · Cursor Composer 2.5 · Qwen 3.7 - Insights | Molayo

5분 만에 읽는 · AI 시스템 아키텍트가 매일 엄선

주력 분야: Agentic Workflow · AI 코딩 도구 · 구체화된 AI (Embodied Intelligence)

xAI가 Grok Build CLI (5월 14일)를 SuperGrok Heavy 구독자를 대상으로 얼리 베타(Early Beta)로 공개했다. Grok 4.3 beta를 기반으로 **200만 토큰의 컨텍스트 윈도우 (Context Window)**와 **8개의 병렬 서브 에이전트 (Sub-agent)**를 지원한다. 헤드리스 모드(Headless mode) · ACP 프로토콜 · 터미널 기반 플래닝 · 깔끔한 git diff 및 worktree 관리에 대응한다.

【기술 핵심】

Grok Build CLI는 2026년 5월에 등장한 코딩 도구 중 에이전트 기능 밀도가 가장 높다. 200만 토큰의 컨텍스트를 통해 대규모 코드베이스 전체가 단일 에이전트 실행(Agent run)에 포함되며, 병렬 서브 에이전트를 통해 진정한 동시 병행 태스크 실행이 가능해진다. 멀티 에이전트 시스템 (Multi-agent system)에 가까운 설계다. macOS · Linux (Windows WSL2) 대응, 월 $299의 SuperGrok Heavy에서 이용 가능하다.

【주목해야 하는 이유】

이는 xAI가 Claude Code 및 OpenAI Codex CLI에 직접적으로 경쟁 참전한 것이다. 8개의 병렬 서브 에이전트를 월 $299에 제공함으로써, 복잡한 멀티 스텝 에이전트 파이프라인을 구축하는 파워 유저용 도구로 자리매김한다. 200만 토큰 윈도우는 레거시 코드베이스의 리팩토링이나 대규모 모노레포 (Monorepo) 조작에 혁명적인 변화를 가져올 것이다.

Cursor 고유의 Composer 2.5가 5월 18일에 GA(General Availability) 공개되었다. SWE-Bench Multilingual 79.8% · **CursorBench v3.1 63.2%**를 달성하며, 코딩 태스크에서 Claude Opus 4.7 · GPT-5.5와 동등한 성능을 주장한다. 가격은 1M 토큰당 $0.50/$2.50부터 시작한다.

【기술 핵심】

Cursor 3.4의 새로운 팀 설정 가능 에이전트 환경 인프라 위에 구축되었으며, 에디터 내에서의 PR 리뷰(생성부터 머지까지 일관되게)와도 통합된다. SWE-Bench 다국어 스코어는 비영어 코드베이스에 대한 대응력을 보여주며, Cursor의 독자 모델로서는 첫 쾌거다.

【주목해야 하는 이유】

Cursor는 이제 단순한 서드파티 모델의 UI 래퍼 (Wrapper)가 아니다. 코드 벤치마크에서 프론티어 랩 (Frontier lab)과 경쟁할 수 있는 독자 모델을 보유함으로써, 수직 통합을 통한 차별화가 진행되고 있다. Cursor 3.4를 사용하는 팀이라면 모델 피커 (Model picker)에서 즉시 선택 가능하다.

Alibaba의 Qwen 3.7-Max-Preview (5월 20일)는 100만 토큰의 컨텍스트 윈도우와 확장 사고 모드를 도입했다. 데모에서는 35시간의 자율 에이전트 실행 동안 **1,000개 이상의 도구 호출 (Tool call)**을 성능 저하 없이 완수했다. LM Arena Elo 1,475로 중국 모델 중 최고위를 기록했다.

【기술 핵심】

35시간 · 1,000개 도구 연쇄 데모는 중국 연구소에서 등장한 것 중 가장 신뢰할 수 있는 장기 에이전트 벤치마크다. OpenRouter에서 1M 토큰당 $2.50/$7.50로 가격이 책정되었다. 또한 같은 시기에 DeepSeek V4-Pro의 75% 할인이 영구화($0.435/1M 토큰)되어, 중국 오픈 웨이트 (Open weight) 생태계 전체의 비용 경쟁력이 대폭 향상되었다.

【주목해야 하는 이유】

Qwen 3.7의 장기 에이전트 능력과 DeepSeek V4-Pro의 비용 구조의 조합은, 에이전트 워크로드의 프론티어가 OpenAI나 Anthropic만의 것이 아님을 보여준다. 대량의 에이전트 파이프라인을 구축하는 팀은 비용 최적화 관점에서 중국 모델을 진지하게 평가해야 할 단계에 와 있다.

Anthropic이 5월 14일에 과금 분할을 발표했다 (6월 15일 시행). Claude의 크레딧이 채팅/퍼스트 파티 도구 (기존 Pro/Max)와 새로운 Agent SDK 크레딧 풀 (Credit pool) (Claude Code · claude -p · GitHub Actions · 서드파티 프레임워크 대상)으로 분리된다.

【기술 핵심】

에이전트 SDK 월간 한도: $20 (Pro), $100 (Max 5x), $200 (Max 20x). 한도 초과 후에는 일반 API 레이트 (Rate)로 전환된다. 이를 통해 대화 용도와 에이전트 용도의 예산을 독립적으로 관리할 수 있게 된다.

【왜 주목해야 하는가】

에이전트 이용이 독립된 과금 카테고리로 관리될 만큼 성장했다는 신호다. CI/CD 파이프라인에서 Claude Code를 운영하는 팀이나 Agent SDK를 실무(Production)에서 사용하는 팀은 6월 15일 이전에 현재 사용량을 정밀 검토하여 예상치 못한 과금을 방지해야 한다.

Gemini 3.5 Flash가 5월 19일에 GA(General Availability) 공개되었다. 에이전트 퍼스트 (Agent-first) 모델로 명확히 자리매김했으며, 코딩, 에이전트 작업, 멀티모달 (Multimodal) 추론 측면에서 Gemini 3.1 Pro를 능가한다. Gemini API, AI Studio, Android Studio, Google Antigravity, 소비자용 Gemini 앱에서 이용 가능하다.

【기술 핵심】

Google의 "에이전트 퍼스트"라는 프레이밍은 실질적인 내용을 담고 있다. 채팅 최적화가 아닌 장기적인 도구 이용을 위해 설계되었으며, Google Antigravity(Google의 VS Code 경쟁 IDE)에 출시 첫날(Day one)부터 탑재되었다. 이는 Google의 개발자 에코시스템(Developer Ecosystem) 전체의 기본 엔진으로서의 위치를 의미한다. Gemini 3.5 Pro는 6월 출시 예정이다.

【왜 주목해야 하는가】

Android Studio부터 Antigravity, API에 이르기까지 Google의 개발 스택 전체에 Gemini 3.5 Flash가 통합됨으로써, Google은 현대적 개발의 보이지 않는 인프라가 되는 것을 목표로 하고 있다. 이미 Google Cloud나 Firebase를 이용 중인 팀은 기존 툴체인(Toolchain) 상에 에이전트 기능이 자동으로 나타나기를 기대해도 좋다.

베이징의 X-Humanoid가 5월 10일에 慧思開物 (Wise KaiWu) Agent를 발표했다. 업계 최초로 글로벌 장면 인식과 동적 공간 기억 시스템을 탑재한 휴머노이드 로봇용 AI 플랫폼이다. 4가지 주요 돌파구: 공간 기억, 확장 가능한 개인 인식 상호작용, 단 한 번의 개발로 다수 로봇 전개, 멀티모달 힘 제어.

【기술 핵심】

慧思開物 Agent는 영구적인 사용자 기억 시스템을 도입하여, 로봇이 한 번 상호작용한 개별 사용자를 인식하고 행동 선호도를 장기 기억하는 것을 가능하게 한다. 시각 + 촉각 센싱을 통한 적응형 파지력(Grasping force) 제어와 결합함으로써, LLM 추론과 현실 세계의 물리적 조작 사이의 가교 역할을 실현한다. "단 한 번의 개발로 다수 로봇 전개" 기능은 전개 비용을 대폭 절감한다.

【왜 주목해야 하는가】

휴머노이드 로봇의 공간 기억은 인상적인 연구실 데모와 현실 세계의 서비스 전개 사이에 존재하는 미싱 레이어(Missing layer)다. 로봇이 물체의 위치, 사용자의 신원, 필요한 힘의 강도를 재학습 없이 기억할 수 있을 때, 노인 돌봄, 물류, 경공업 분야에서의 실질적인 운용이 가능해진다. 慧思開物 Agent는 지속적이고 개인화된 로봇 서비스로 나아가는 신뢰할 수 있는 한 걸음이다.

Anthropic의 Claude Mythos가 약 50개의 파트너 조직을 대상으로 한정 프리뷰(Limited Preview)를 공개 중이다. 추론, 코딩, 에이전트 실행 능력의 대폭적인 향상과 더불어, 지금까지 알려지지 않은 소프트웨어 취약성을 자율적으로 발견하는 능력이 있다는 소문이 돌고 있다.

【기술 핵심】

에이전트가 실무 소프트웨어 내의 제로데이(Zero-day) 취약성을 자율적으로 발견할 수 있다면, 이는 현재의 코딩 에이전트와는 질적으로 다른 도약이다. 상세 내용은 제한되어 있으나, 50개 파트너 한정 프리뷰 구조는 Anthropic이 광범위한 공개에 앞서 역량(Capability) 전개를 신중하게 관리하고 있음을 보여준다.

【왜 주목해야 하는가】

Claude Mythos가 확실히 새로운 취약성을 발견할 수 있다면, 공격(Offensive) 및 방어(Defensive) 양면에서 보안 경제학이 근본적으로 변하게 된다. 레거시 코드베이스를 운영하는 조직은 이 동향을 예의주시해야 한다. 또한, 신중한 한정 공개는 Anthropic이 이를 이중 용도(Dual-use) 리스크로 인식하고 있음을 시사한다.

Insights

AI Daily Digest: 2026년 5월 25일 — Grok Build CLI · Cursor Composer 2.5 · Qwen 3.7

요약

핵심 포인트

댓글

Amazon, 해산물 지속 가능성 주장과 관련하여 집단 소송 직면

저비트 양자화 (Low-Bit Quantization) 환경에서의 확산 모델 (Diffusion) 대 자기회귀 (Autoregressive)

Lexar, 중국산 칩을 탑재한 32GB DDR5 메모리 출시 — 3,999 위안(약 592달러)의 가격으로 CXMT 기반 저가형 RAM에

Strands에서의 Swarm: 창발적 핸드오프(handoffs)를 통한 자율적 오케스트레이션

저비트 양자화 (Low-Bit Quantization) 환경에서의 확산 모델 (Diffusion) 대 자기회귀 (Autoregressive)

Lexar, 중국산 칩을 탑재한 32GB DDR5 메모리 출시 — 3,999 위안(약 592달러)의 가격으로 CXMT 기반 저가형 RAM에

Strands에서의 Swarm: 창발적 핸드오프(handoffs)를 통한 자율적 오케스트레이션