FutureX · Physical AI Daily — Issue 43 (06/30) - Insights | Molayo

오늘의 주요 뉴스

· 선전(Shenzhen) 기반의 AI²Robotics(중국 휴머노이드 스타트업)와 X Square Robot(중국 Embodied AI 스타트업)이 같은 날 모두 기업 가치 **200억 위안(RMB)**을 돌파했습니다. AI²Robotics는 새로운 라운드에서 약 50억 위안을 조달했으며, X Square Robot은 두 달 만에 4번의 라운드를 완료하며 보고된 기업 가치가 200억 위안을 넘어섰습니다. 이로써 중국의 Embodied AI "10억 위안 클럽"은 약 25개 기업으로 늘어났습니다.

· 폭스바겐(Volkswagen)이 Bosch와의 자율주행 파트너십을 종료할 움직임을 보이고 있다는 소식입니다. 약 4년 동안 **15억 유로(€)**를 투자했으나, 내부 평가 결과 해당 기술이 "경쟁력이 없다"고 판단되었으며, 회사는 9월 전까지 새로운 계약 체결을 목표로 외부 공급업체로 전환하고 있습니다.

· 한국은 Physical AI를 국가 전략으로 격상했습니다. 정부는 제조 AI에 **20조 원(KRW)**을 투자하고, 2028년까지 10개 분야에 걸쳐 산업별 휴머노이드 로봇을 상용화할 계획이며, 11개 기업과 함께 Physical AI 산업 협회를 설립했습니다.

· Tesla는 구형 HW3 차량 소유자들에게 FSD 14 Lite를 배포하고 있으나, 해당 차량들은 여전히 Tesla의 로보택시(robotaxi) 플릿에 참여할 자격이 없습니다.

· 같은 날 여러 개의 월드 모델(world model) 발표가 있었습니다. Xpeng는 CVPR 2026에서 (VLA 2.0을 지원하기 위한) 예측형 월드 모델 프레임워크인 X-Mind를 공개했으며, Wujie Power(중국 로보틱스 스타트업)는 벤치마크 상위권을 차지했다고 주장하는 "잠재 공간 월드 모델(latent-space world model) MWA"를 출시했습니다(⚠️ 업체 주장).

I. 연구 논문

PhysisForcing: 로봇 조작 월드 시뮬레이터를 위한 물리 제약 강화학습 (Reinforcement Learning) 접근 방식 · 월드 모델 (world-model)

Embodied manipulation(체화된 조작)을 위한 비디오 생성형 월드 모델(video-generative world models)의 핵심적인 한계를 다룹니다. 범용 비디오 생성기(general-purpose video generators)와 로봇 데이터로 미세 조정(fine-tuned)된 모델 모두 물리적으로 불가능한 출력물—불연속적인 궤적(discontinuous trajectories), 로봇과 물체 간의 상호 침투(interpenetration)—을 생성하여 월드 시뮬레이터(world simulator)로서의 신뢰성을 저해합니다. 본 연구는 강화(reinforcement)를 통해 생성 과정에 물리적 일관성(physical consistency)을 주입함으로써, 조작 롤아웃(manipulation rollouts)의 물리적 타당성을 개선합니다. 출시 당일 HF↑30 기록.

Peiwen Zhang et al. · arXiv 2606.28128 source

"번역(Translation)"을 가교 동작으로 사용하기: 인간의 조작 기술을 양팔 로봇으로 전이하기 · manipulation (조작)

인간의 동작 데이터는 저렴하고 풍부하며 다양하여 로봇 학습(robot learning)을 확장하기 위한 가장 유망한 자원이지만, 인간의 손과 평행 그리퍼(parallel grippers) 사이의 형태학적 차이(morphological gap)로 인해 직접적인 전이가 어렵습니다. 본 연구는 일종의 "번역(translation)" 가교 동작(bridging actions)을 사용하여 인간의 시연(demonstrations)을 평행 그리퍼를 가진 양팔 로봇(bimanual robots)에 매핑하며, 인간의 동작 데이터로부터 새로운 조작 기술을 학습할 수 있음을 입증합니다. 출시 당일 HF↑27 기록.

Sijin Chen et al. · arXiv 2606.28133 source

액션 헤드(Action Head)에 단일 접지된 3D 앵커 포인트(Grounded 3D Anchor Point)를 주입하여 VLA의 공간 및 작업 일반화 성능 확보 · vla

VLA 모델은 대규모 시각-언어 사전 학습(vision-language pretraining)을 통해 유연한 조작을 달성하지만, 테스트 시 다음 두 가지 축에서 취약함을 보입니다: 학습 분포를 벗어난 물체 위치(공간 일반화, spatial generalization) 및 익숙한 장면과 결합된 새로운 지시어(작업 일반화, task generalization). 본 연구는 단일한 3D 접지된 **공간 포인트(spatial point)**를 액션 헤드(action head)에 직접 입력하는 것만으로도 두 가지 유형의 일반화 성능을 동시에 향상시킬 수 있음을 발견했습니다. 이는 표적화된 효과를 내는 최소한의 개입입니다.

Shiang-Feng Tsai et al. · arXiv 2606.27663 source

S²-VLA: State-Space-Guided VLA for Long-Horizon Manipulation · vla

기존의 VLA(Vision-Language Agent)는 누적되는 오차로 인해 장기 지평선(long-horizon) 작업에서 인지 드리프트(perceptual drift)와 의도 손실(intent loss)을 겪는 경우가 많습니다. S²-VLA는 상태 공간 안내 적응형 어텐션(state-space-guided adaptive attention)을 사용하여 오차 누적을 억제하며, 해당 팀은 2B 파라미터로 여러 장기 지평선 조작 벤치마크에서 7B 규모의 기준 모델보다 우수한 성능을 보고했습니다.

Zhipeng Xie et al. (Shanghai Jiao Tong University, East China Normal University) · arXiv 2606.27872 source · Commentary: Embodied Intelligence Notes source (WeChat, CN)

Drop and Recover: How Redundant Are VLA Models? · benchmark

VLA는 사전 학습된 VLM(Vision-Language Model)의 과도하게 큰 언어 백본을 직접 상속받으며, 이는 짧은 로봇 지침을 처리하는 데 필요한 용량을 훨씬 초과합니다. 이 연구는

Perceptual 3D Simulation: Physical World Modeling을 통한 장면 진화 예측 · world-model

"이미지가 주어졌을 때, 3D 변환(3D transformation) 하에서 장면이 어떻게 진화하는지 예측하라"는 비전(vision), 그래픽스(graphics), 로보틱스(robotics) 분야 전반에 걸친 공통된 목표입니다. 하지만 이상적인 시뮬레이터와 달리 실제 시스템은 3D 기하학(geometry)과 역학(dynamics)에 완전히 접근할 수 없으며, 부분적이고 불완전한 **지각 입력 (perceptual inputs)**에 의존해야만 합니다. 본 연구는 지각적 제약 조건 하에서의 물리적 진화를 모델링하여, 실행 가능한 현실 수준의 시뮬레이션으로 나아가는 발판을 마련합니다.

Wanhee Lee 외 (Stanford, Daniel Yamins 그룹) · arXiv 2606.27575 source

오늘의 다른 논문들: SpikeVLA (스파이킹 신경망 (spiking neural networks)을 이용한 저전력 실시간 VLA, arXiv 2606.27807 source); Support-Constrained RL (실제 로봇 경험 없이 실제 환경 정책을 개선하는 방법, arXiv 2606.27475 source); Unleashing Infinite Motion (생성형 비디오 사전 지식 (generative video priors)을 통해 표현력이 풍부한 4족 보행을 증폭함, arXiv 2606.28237 source); DexCompose (단일 손 다중 작업 실행을 위한 숙련된 조작 (dexterous manipulation) 정책의 재사용, arXiv 2606.28323 source); Booster Lab (배포 가능한 휴머노이드 보행을 위한 데이터 중심 파이프라인, arXiv 2606.27813 source); DIM-WAM (다양한 과거 이벤트 메모리를 활용한 세계-행동 모델링 (world-action modeling), arXiv 2606.27677 source); ReWorld (자율 주행을 위한 세계-행동 모델의 더 나은 표현 학습, arXiv 2606.27504 source).

Open Source · Tools · Benchmarks

· MemoBench: 동적으로 변화하는 환경에 초점을 맞춘 월드 모델링 (world-modeling) 벤치마크입니다. 특히 장면이 계속 진화하는 동안 대상이 시야에서 벗어나거나 가려질 때의 메모리 일관성 (memory consistency)을 테스트하며, 시야 내의 대상만을 테스트하는 대부분의 벤치마크가 가진 공백을 메웁니다 (arXiv 2606.27537 source).

· SimFoundry: 단일 비디오로부터 제로샷 실사-시뮬레이션 (real-to-sim) 재구성이 가능한 모듈형 자동 장면 생성 시스템으로, 정책 학습 (policy learning) 및 평가에 사용됩니다 (arXiv 2606.28276 source, HF↑6).

II. Funding & Deals

X Square Robot (중국 Embodied AI 스타트업) ｜ B+/B++/C 라운드 ｜ 포스트 머니 기업 가치(Post-money valuation) 200억 위안(RMB) 초과 (~$2.8B) · embodied

B+, B++, C의 세 차례 연속 라운드가 단 두 달 남짓한 기간 내에 모두 마감되었으며, 이는 광둥-홍콩-마카오 대만구(Greater Bay Area)에서 기업 가치 200억 위안에 도달한 첫 번째 기업입니다. 투자자 라인업은 Meituan, Alibaba, ByteDance, Xiaomi가 각각 서로 다른 라운드를 주도하고 Sequoia China, IDG, Source Code Capital, 국가 AI 산업 기금(National AI Industry Fund), China Mobile이 참여하는 등 중국 인터넷 대기업들의 이례적으로 완벽한 명단을 보여줍니다. 이 회사는 Embodied 파운데이션 모델 (embodied foundation models) 및 통합 로봇에 집중하고 있으며, 58 Daojia(중국 홈 서비스 플랫폼)와 독일 럭셔리 자동차 제조사의 부품 생산 라인을 포함한 실제 환경에 이미 배포되어 운영 중입니다. 출처: Pencil News source (WeChat, CN)

AI²Robotics (중국 휴머노이드 스타트업) ｜ 신규 라운드 ｜ ~~50억 위안(RMB) (~~$700M) ｜ 기업 가치 200억 위안(RMB) 초과 · embodied

X Square Robot과 같은 날 200억 위안(RMB)의 기업 가치를 발표했습니다. 이번 라운드는 국가 중소기업 시스템 펀드(National SME System Fund), 광둥성 AI 펀드(Guangdong Provincial AI Fund), 선전 캐피털 그룹(Shenzhen Capital Group, 深创投), 난산 전략적 신흥 산업 투자(Nanshan Strategic Emerging Industry Investment), 그리고 마오타이 그룹(Moutai Group, 중국 주류 대기업), 중국 상업 자본(China Merchants Capital), 시노 바이오파마슈티컬(Sino Biopharmaceutical)을 포함한 전략적 투자자들이 공동으로 주도했습니다. 이는 지난 2월 약 100억 위안(RMB) 규모였던 시리즈 B(Series B) 대비 기업 가치가 두 배로 증가한 것입니다. 이 회사는 AlphaBot2가 이끄는 범용 생산성 로봇과 독자적인 뇌 모방 VLA(Vision-Language-Action) 모델을 중심으로 사업을 전개하고 있으며, 자체 생산 라인은 현재 월 수백 대 규모이며 올해 수만 대 생산을 목표로 하고 있습니다. 출처: RecodeX source (WeChat, CN)

SpeedBot (중국 산업용 로봇 비전 스타트업) ｜ 시리즈 B++ (Series B++) ｜ 1억 위안(RMB) 이상 범위 · industrial

이번 라운드는 다첸 차이즈(Dachen Caizhì, 중국 PE 기업)가 관리하는 국가 중소기업 후난 하위 펀드(National SME Hunan Sub-Fund)와 창사 도시 개발(Changsha Urban Development)이 공동 투자했습니다. 이 회사는 이전에 3억 위안(RMB) 규모의 시리즈 B(Series B)를 포함하여 총 7번의 라운드를 완료했습니다. SpeedBot은 **산업용 월드 모델 (industrial world model)**을 사용하여 제조 시나리오를 위한 물리적 인지 능력을 구축하며, 생산 라인에서의 embodied AI 배포를 지원합니다. 출처: 창사 기업 상장 서비스 센터 source (WeChat, CN)

Delta Intelligence ｜ 엔젤+ 라운드 (Angel+ Round) ｜ 미공개 · world-model

휴머노이드 로봇 파운데이션 모델 (foundation model) 기업인 이 회사는 Zhuhai Science and Technology Industry Group, Haiwan Capital (중국 VC), Meihua Ventures (중국 VC), 반도체 투자사 Jiaoyuan Assets, 그리고 자동차 산업 전략적 참여자가 이번 라운드에 참여했습니다. 기존 투자자인 Huaying Capital (중국 VC)도 후속 투자를 진행했습니다. 출처: Tech Capital Circle source (WeChat, CN)

Proception ｜ 신규 라운드 (New Round) ｜ 1,100만 달러 · embodied

Y Combinator의 지원을 받는 로봇 정교한 손 (dexterous hand) 스타트업으로, 창립자인 Jay Li는 이전에 Tesla의 Optimus 프로그램에서 기술 리드를 역임했습니다. 이 회사는 Tesla가 제기한 영업 비밀 침해 소송이 합의됨과 동시에 이번 투자 라운드를 발표했습니다 (Tesla는 이번 달 소송을 취하했습니다). 출처: TechCrunch source

Archon Robotics ｜ 시드 라운드 (Seed Round) ｜ 수억 위안 (RMB) · embodied

범용 전신 임바디드 인텔리전스 (whole-body embodied intelligence) 개발자로 자리매김한 이 회사는 수억 위안 규모의 시드 라운드를 완료했습니다. 출처: Gasgoo source

Qingyu Technology ｜ 프리 시리즈 A (Pre-Series A) ｜ 미공개 · embodied

FutureX · Physical AI Daily — Issue 43 (06/30)

요약

핵심 포인트

I. 연구 논문

Open Source · Tools · Benchmarks

II. Funding & Deals

댓글