AI에 600억 위안 투자: Xiaomi AI 야망의 마지막 단계

Lei Jun은 Weibo에 일련의 수치를 게시했습니다: Xiaomi는 향후 3년 동안 AI에 600억 위안을 투자할 것입니다. 2026년 한 해에만 최소 160억 위안을 투자할 예정입니다.

600억 위안은 어느 정도의 규모일까요? Xiaomi의 2025년 전체 순이익은 392억 위안이었습니다. 이 투자는 대략 그 순이익의 1년 반에 해당합니다. 1분기(Q1) 연구개발(R&D) 지출만 90억 위안에 달해 전년 대비 33.4% 증가했으며, 26,048명의 R&D 인력이 투입되었습니다—모두 역대 최고치입니다.

Xiaomi는 휴대폰 회사에서 AI 회사로 변모하고 있습니다. 하지만 자세히 들여다보면 한 가지 문제가 나타납니다: Xiaomi의 AI 포트폴리오는 이미 상당히 완성된 것처럼 보입니다—MiMo 파운데이션 모델 (foundation model), miclaw 휴대폰 에이전트 (Agent), 에이전트 (Agent) 생태계 플랫폼, 11억 개의 IoT 기기, 그리고 7억 4,600만 명의 월간 활성 사용자(MAU)까지 말이죠. 모든 것이 갖춰진 듯 보이지만, Lei Jun은 분명 만족하지 못하고 있습니다.

그는 빠진 퍼즐 조각을 찾고 있습니다. 그것 없이는 600억 위안의 투자를 상업적 가치로 완전히 전환할 수 없습니다.

I. Xiaomi의 AI 포트폴리오

Lu Weibing은 2026년 1분기(Q1) 실적 발표에서 Xiaomi의 3계층 AI 아키텍처 (architecture)를 상세히 설명했습니다. 기반 인프라를 포함하면 실제로는 4계층 스택 (stack)입니다.

기반 계층은 인프라 (infrastructure)입니다. Xiaomi는 약 2,206억 위안의 현금 보유고를 가지고 있으며, 26,048명의 R&D 인력을 고용하고 있고, 1분기(Q1)에만 R&D에 90억 위안을 지출했습니다. 회사는 인베스터 데이 (Investor Day)에서 입장을 분명히 했습니다: 600억 위안은 최저선이며—실제 지출은 더 높을 것입니다.

첫 번째 계층은 파운데이션 모델 (foundation model)입니다. MiMo 모델 제품군이 완전히 형성되었습니다: V2.5-Pro (플래그십 에이전트 (Agent) 모델, 1조 개의 파라미터 (parameters), 100만 컨텍스트 윈도우 (context window)), V2.5 (멀티모달 (multimodal) 베이스), V2-Omni, V2-TTS, 그리고 OneVL 자율주행 모델입니다. V2.5-Pro는 Artificial Analysis의 종합 지능 지수 (Overall Intelligence Index)와 에이전트 (Agent) 지수 (Index) 모두에서 오픈 소스 (open-source) 모델 중 세계 1위를 기록하고 있습니다. 이 모델은 베이징 대학교의 컴파일러 이론 SysY 컴파일러 프로젝트를 4.3시간 만에 완료했습니다—672번의 도구 호출 (tool calls)과 함께 233/233이라는 완벽한 점수를 받았습니다. 토큰 효율성 (Token efficiency)은 Claude Opus 4.6 및 GPT-5.4보다 40%~60% 더 낮습니다.

두 번째 레이어는 embodied intelligence (체화된 지능) 및 자율 주행입니다. Xiaomi의 휴머노이드 로봇은 실전 훈련을 위해 자동차 공장에 투입되었습니다. 1세대 로봇의 VLA (Vision-Language-Action) 모델 팀은 단 6개월 만에 작업을 완료했습니다. XLA 인지 아키텍처가 출시되면서 보조 주행 기능이 '인지 및 모방'에서 '이해 및 추론' 단계로 업그레이드되었습니다. OneVL 자율 주행 모델은 오픈 소스로 공개되었습니다.

세 번째 레이어는 AI 애플리케이션 배포입니다. 모바일 에이전트(Agent)인 miclaw는 현재 클로즈 베타(Closed beta) 단계에 있습니다. 이는 중국 최초의 모바일 기기 시스템 레벨 AI 에이전트로, 50개 이상의 시스템 도구를 갖추고 있으며 이미 태블릿, PC, Mac 및 스마트 디스플레이로 확장 중입니다. 에이전트 생태계 플랫폼(dev.mi.com)은 퍼블릭 베타(Public beta)에 진입하여 MCP/Skill/Agent 업로드를 지원합니다. Miloco 홈 인텔리전스는 AWE2026에서 처음 선보였습니다. HyperOS는 전 세계 11억 개의 기기를 연결하고 있으며 월간 활성 사용자 수(MAU)는 7억 4,600만 명에 달합니다.

Xiaomi의 AI 포트폴리오는 완성된 것처럼 보입니다. 하지만 CCID Consulting의 분석가 Bai Runxuan은 결정적인 격차를 식별했습니다. 현재의 에이전트 산업 체인은 '양 끝은 뜨겁지만 중간은 비어 있는(hot at both ends, hollow in the middle)' 패턴을 보이고 있습니다. 상류(Upstream)의 파운데이션 모델(Foundation models)과 칩은 자본을 끌어들이고, 하류(Downstream)의 유스케이스(Use-case) 수요는 강력하지만, 중류(Midstream)에는 도메인 전문 지식을 신뢰할 수 있는 에이전트로 변환할 수 있는 엔지니어링 플랫폼이 부족합니다.

Xiaomi의 포트폴리오는 이러한 진단을 완벽하게 보여줍니다. 기반 모델도 있고, 엔드 유저(End-user) 기기도 있으며, 생태계 플랫폼도 있습니다. 하지만 부족한 것은 바로 가교(Bridge)입니다. 즉, '일반 사람들'이 이러한 리소스를 사용하여 에이전트를 구축할 수 있게 해주는 플랫폼이 없습니다.

II. 라스트 마일에서의 세 가지 격차 (Three Chasms on the Last Mile)

AIGC2026 서밋에서 Amazon Web Services의 Wang Xiaoye는 놀라운 통계를 공개했습니다. 기업의 87%가 AI를 대규모로 배포했다고 주장하지만, 실제로 AI로부터 실질적인 가치를 추출해낸 기업은 10%에 불과합니다.

그 수치 뒤에는 넘어서기 어려운 세 가지 격차가 존재합니다.

첫 번째 격차: 개발자 장벽. 프로그래머들은 이미 에이전트형 AI (Agentic AI) 도구를 보유하고 있습니다. Claude Code는 단일 터미널 프롬프트로 전체 개발 라이프사이클을 처리하며, ByteDance의 Trae는 AI가 자율적으로 코드를 작성하게 해줍니다. 하지만 이러한 도구들은 오직 프로그래머들에게만 유용합니다. 진정한 AI 에이전트 (AI Agent)를 구축하는 것은 현재 두 가지 접근 방식으로 나뉩니다. 하나는 Dify나 n8n과 같은 로우코드 (low-code) 워크플로우 플랫폼입니다. 이들은 사용자가 노드를 드래그 앤 드롭하여 AI 애플리케이션을 빠르게 조립할 수 있는 시각적 캔버스를 제공합니다. 하지만 이들의 핵심 로직은 "사전 설정된 경로"이며, 본질적으로 if/else 조건문을 사용하여 흐름을 제어할 뿐, 에이전트의 자율적 의사결정 (autonomous decision-making)은 지원하지 않습니다. 다른 하나는 LangChain이나 CrewAI와 같은 코드 기반 개발 프레임워크입니다. 이들은 진정한 에이전트형 AI (Agentic AI)를 지원하지만, Python 프로그래밍 기술을 요구합니다. 변호사는 LangChain을 사용하지 않을 것이며, 회계사는 ReAct 에이전트 (ReAct Agent)를 설정할 수 없고, 마케팅 매니저는 Python을 작성하지 않습니다.

두 번째 격차: 에이전트 워싱 (Agent Washing)과 범용 에이전트 (general-purpose Agents)의 한계. Gartner는 시장에 만연한 "에이전트 워싱 (Agent Washing)"에 대해 경고해 왔습니다. 많은 벤더들이 마케팅 목적으로 단순한 자동화 스크립트나 챗봇을 AI 에이전트로 포장하고 있습니다. 기업의 90%는 여전히 AI를 단순한 채팅 도구로 취급하고 있으며, 비용을 절감하고 효율성을 높이기 위해 에이전트를 진정으로 활용하는 기업은 10%에 불과합니다. CCID Consulting의 데이터에 따르면 2026년 2월 기준, 국내 AI 에이전트 서비스 제공업체의 수는 300개를 넘어섰지만, 진정한 기업급 인도 (enterprise-grade delivery) 역량을 갖춘 곳은 매우 적습니다.

진정한 에이전트형 AI (Agentic AI)라 할지라도, 범용적인 접근 방식은 통하지 않습니다. Manus와 2026년 초 화제가 되었던 OpenClaw는 모두 범용적인 경로를 택했습니다. 즉, 모든 것을 할 수 있지만, 그 무엇도 탁월하게 해내지는 못했습니다.

세 번째 격차: 도메인 전문가들이 배제되고 있습니다. 변호사는 법률 전문 지식은 있지만 코딩을 할 수 없습니다. 마케터는 시장을 이해하지만 에이전트 (Agents)를 구성할 수 없습니다. 제품 관리자 (Product managers)는 요구 사항을 정의할 수 있지만 스크립트를 작성할 수는 없습니다. 이들은 에이전트의 가장 가치 있는 사용자들입니다. 즉, 자신의 산업 분야에서 문제가 어디에 있는지, 어떤 도구가 이를 해결할 수 있는지를 정확히 알고 있는 사람들입니다. 하지만 이들은 에이전트 구축 과정에서 배제되어 있습니다.

이것이 바로 "라스트 마일 (last mile)"의 딜레마입니다. Xiaomi의 모델이 강력해지고 생태계가 풍부해질수록, 이 격차는 더욱 극명하게 드러날 것입니다.

III. SoloEngine이 에이전트 시장을 혁신하는 방법

SoloEngine은 그 라스트 마일을 연결하는 핵심 열쇠입니다.

이것은 최초의 로우코드 (low-code) 에이전틱 AI (Agentic AI) 개발 플랫폼입니다. 사용자는 브라우저를 열고, 캔버스 위에 에이전트를 드래그하여 배치하고, 협업 관계를 연결하며, 필요한 도구를 구성한 뒤 실행 버튼을 누르기만 하면 됩니다. 백엔드는 시각적 설계를 실행 가능한 에이전틱 AI 시스템으로 자동 컴파일합니다. 이 시스템은 작업을 계획하고, 작업을 실행하며, 실시간 피드백을 제공하는 반면, 사용자는 검토하고 확인하기만 하면 됩니다.

코드 한 줄 필요 없습니다. 구성하기 위한 if/else 로직도 필요 없습니다.

SoloEngine은 어떻게 세 가지 격차를 해소할까요?

"개발자 장벽" 극복. 시각적 캔버스 오케스트레이션 (orchestration)과 제로코드 (zero-code) 구축을 제공합니다. 변호사가 캔버스에 "계약 검토 에이전트"를 드래그하고, "법률 조항 검색 에이전트"와 "리스크 탐지 에이전트"를 추가한 뒤, 이들의 협업 관계를 연결하고 실행을 누릅니다. 30분 후, 37개의 리스크 지점이 표시된 계약 검토 보고서가 자동으로 생성됩니다. 완전히 제로코드 방식입니다.

"에이전트 워싱 (Agent Washing)" 극복. SoloEngine은 진정한 에이전틱 AI 아키텍처를 사용합니다. 각 에이전트는 "생각(think) → 행동(act) → 관찰(observe) → 반복(repeat)" 루프를 실행하며, 미리 설정된 경로를 따르는 대신 현재 상황에 기반하여 실시간 결정을 내립니다.

다음은 SoloEngine이 주류 옵션들과 비교했을 때의 모습입니다:

	Dify/n8n	LangChain/CrewAI	SoloEngine
진정한 에이전트 AI (True Agentic AI) 지원	✗ 사전 설정된 경로 워크플로우만 지원	✓ ReAct / 멀티 에이전트 (multi-Agent)	✓ ReAct / 멀티 에이전트 (multi-Agent)
...
"도메인 전문가 차단(domain expert lockout)" 현상을 극복합니다. 범용 에이전트 (General-purpose Agents)는 모든 것을 수행하지만, 어느 것 하나도 탁월하게 해내지 못합니다. SoloEngine은 모든 산업 분야의 전문가들이 자신의 에이전트가 무엇을 할지, 어떻게 수행할지, 그리고 어떤 도구를 사용할지를 정의할 수 있게 하여, 수직적이고 정밀한(vertical and precise) 운영을 가능하게 합니다. 변호사의 에이전트는 오직 법률 업무만을 처리합니다. 마케터의 에이전트는 오직 마케팅 업무만을 처리합니다. 멀티 에이전트 협업 (Multi-Agent collaboration)—변호사는 여러 에이전트를 끌어와 자동으로 업무를 분담하고 협업하게 할 수 있으며, 결과물은 전달되기 전에 여러 에이전트에 의해 교차 검증됩니다. 원클릭 패키징 (One-click packaging)—조립된 에이전트 팀은 완전한 제품으로 패키징될 수 있습니다. 변호사가 패키징한 법률 에이전트는 동료 전문가들에게 판매될 수 있습니다. 마케터는 VibeMarketing 에이전트 팀을 구축하고, 원클릭으로 패키징하여 100개 이상의 고객에게 서비스를 제공할 수 있습니다.

점진적 공개 (Progressive disclosure)—도구, 기술 (Skills), 그리고 MCP 프로토콜이 필요할 때만 로드되어 토큰 소비를 85% 이상 절감합니다. 통합 적응 계층 (Unified adaptation layer)—OpenAI, Anthropic, Ollama, MIMO, DeepSeek, Tongyi Qianwen, Zhipu 및 기타 모든 주요 모델을 지원합니다. 원클릭 패키징 (One-click packaging)—조립된 에이전트 팀은 완전한 제품으로 패키징될 수 있습니다.

하지만 이러한 "라스트 마일(last mile)" 딜레마는 거대한 시장 기회를 시사하기도 합니다.

중국의 기업용 AI 에이전트 시장은 2026년에 430억 위안을 넘어설 것으로 전망됩니다 (IDC 데이터). 한편, 전국적으로 1인 유한책임회사 (one-person limited liability companies)는 1,600만 개를 넘어섰으며, 이는 전체 기업의 27.4%를 차지합니다. 2026년은 20개 이상의 도시가 전용 OPC 지원 정책을 발표함에 따라 "OPC의 해"로 불리고 있습니다. 이러한 1인 기업들의 핵심 요구 사항은 전통적인 팀을 AI 에이전트로 대체하는 것이지만, 기존 도구들은 코딩 기술을 요구하거나 진정한 자율적 의사결정을 지원하지 못합니다.

Xiaomi의 위치는 독보적입니다. 가장 강력한 모델(MiMo), 가장 광범위한 생태계(11억 개의 IoT 기기), 그리고 가장 저렴한 API(99% 가격 인하)를 모두 갖추고 있습니다. 하지만 기술적 지식이 없는 사용자도 실제로 쉽게 배우고 사용할 수 있는 에이전트 구축 플랫폼(Agent-building platform)이 없다면, 이러한 자원들은 그 어떤 것도 완전한 상업적 가치로 전환될 수 없습니다.

SoloEngine은 이 문제를 해결할 핵심입니다. MiMo가 모델 역량(model capabilities)을 제공한다면, SoloEngine은 에이전트(Agents)를 구축할 수 있는 능력을 제공합니다. 이 둘이 결합함으로써 Xiaomi는 '모델 구축'이라는 전략적 단계에서 '플랫폼 구축' 단계로 격상됩니다.

Xiaomi의 생태계 우위는 SoloEngine을 통해 더욱 증폭됩니다. MiMo의 모델 역량, 99% 저렴해진 API 비용, 11억 개의 IoT 기기, 에이전트 생태계 플랫폼, 그리고 miclaw 폰 에이전트까지—이 모든 자원들은 SoloEngine에 의해 하나로 엮여 다른 플랫폼이 쉽게 복제할 수 없는 생태계 해자(ecosystem moat)를 형성합니다.

OpenAI가 여전히 AgentKit을 GPT-5 생태계 안에 가두어 두려 하는 동안, Xiaomi는 MiMo와 SoloEngine의 조합을 통해 에이전트 구축 장벽을 이미 제로(0) 수준으로 낮추었습니다.

SoloEngine의 포지셔닝은 매우 명확합니다: 워크플로(Workflow)도 없고, 오케스트레이션 코드(orchestration code)도 없습니다. 오직 업무를 완수하는 에이전트(Agents)가 있을 뿐입니다.

모든 산업을 위한 AI.

SoloEngine — 모든 산업을 위한 AI ❤️

AI에 600억 위안 투자: Xiaomi AI 야망의 마지막 단계

요약

핵심 포인트

I. Xiaomi의 AI 포트폴리오

II. 라스트 마일에서의 세 가지 격차 (Three Chasms on the Last Mile)

III. SoloEngine이 에이전트 시장을 혁신하는 방법

댓글