FutureX · Physical AI Daily — Issue 46 (07/03) - Insights | Molayo

오늘의 주요 뉴스

· Unitree Robotics의 STAR Market IPO 등록이 승인되었습니다 (중국 증권 감독 위원회 승인). RMB 42.02억 위안 조달을 계획 중이며, 접수부터 등록 효력 발생까지 약 104일이 소요되어 STAR Market 역대 가장 빠른 사전 심사 기록을 세웠습니다. 이로써 중국의 "최초 상장 휴머노이드 로봇 기업" 탄생이 눈앞에 다가왔습니다.

· 월드 모델 (World models)이 "경쟁자"에서 "인프라"로 전환되고 있습니다: D-Robotics의 Uranus는 프레임 레벨의 폐루프 제어 (closed-loop control)를 달성했으며, Zhiyuan Robotics (중국 휴머노이드 스타트업)는 오픈 범용 훈련장을 출시했습니다. 또한, 최근의 자본 유치 흐름을 이어가며 여러 월드 모델 논문들 (Valdi, ABot-M0.5 등)이 같은 날 발표되었습니다.

· 홈 임바디드 AI (Home embodied AI) 분야에 또 다른 대규모 투자가 이루어졌습니다: Lexiang Technology (전 Dreame 임원들이 설립한 중국 홈 로보틱스 스타트업)가 Ant Group이 주도한 약 RMB 5억 위안 규모의 Pre-A 라운드를 완료하여 총 투자액이 RMB 10억 위안에 달하게 되었습니다. Ant Group은 지난 18개월 동안 12개의 휴머노이드/임바디드 AI 기업을 지원했습니다.

· 글로벌 베어링 리더인 SKF가 중국 하모닉 리듀서 (harmonic reducer) 리더인 Leaderdrive와 합작 투자사를 설립했습니다. SKF는 **60%**의 지분을 보유하며, 휴머노이드 로봇을 위한 정밀 관절 전동 (precision joint transmission) 분야로 직접 진출합니다.

· 제1회 상하이 국제 임바디드 인텔리전스 엑스포 (Shanghai International Embodied Intelligence Expo)가 개막했습니다. 이와 동시에 발표된 _중국 임바디드 인텔리전스 산업 발전 보고서 (2026)_에 따르면, 중국은 연평균 성장률(CAGR)이 약 **22%~23%**에 달하는 세계에서 가장 빠르게 성장하는 임바디드 AI 시장 중 하나입니다.

I. 연구 진척 상황

"도메인 산술 (Domain arithmetic)"은 단일 샘플로 환경 드리프트 (environmental drift)에 대응하여 VLA를 적응시킵니다 · vla

VLA 모델은 카메라 포즈(camera pose)가 변경되거나 로봇이 바뀌는 경우(예: Panda→UR5e) 전체적으로 실패하는 경우가 많습니다. 전통적인 적응 (adaptation) 방식은 작업당 여러 개의 시연 (demonstrations)을 수집해야 하며, 이는 비용이 많이 듭니다. 본 논문은 환경 드리프트 (environmental drift)를 가중치 공간 (weight space)에서 더하거나 뺄 수 있는 "도메인 벡터 (domain vector)"로 정의하여, 단 하나의 샘플만으로 교차 도메인 적응 (cross-domain adaptation)을 달성합니다. 이는 타겟 도메인 시연 데이터에 대한 의존도를 실질적으로 줄여줍니다. 이 논문은 16점의 점수로 그날의 Hugging Face 트렌딩 리스트 1위를 차지했습니다.

Taewook Kang et al. · arXiv 2607.00666 source

더 안정적인 장기 예측 (long-horizon prediction)을 위해 월드 모델 (world models)이 3D 포인트 클라우드 (3D point clouds)를 완성하도록 하기 · world-model

대규모 비디오 역학 모델 (video dynamics models)은 명시적인 3D 구조가 부족하여, 긴 롤아웃 (rollouts) 과정에서 기하학적 드리프트 (geometric drift)와 오차 누적이 발생합니다. 본 연구는 **포인트 완성 (point completion)**을 통해 월드 모델에 3D 공간 구조를 주입하며, 역학 학습 정확도와 장기 일관성 (long-horizon consistency) 모두에서 2D 비디오 베이스라인을 능가합니다. 이는 "사용성을 향해 나아가는 월드 모델"이라는 오늘의 주요 테마와 일치합니다.

Skand Peri et al. (Oregon State) · arXiv 2607.00148 source

로봇 계획 (robot planning)을 위한 구조화된 4D 잠재 예측 (latent prediction) 모델 · world-model

대부분의 비디오 예측 모델은 2D 시퀀스에 국한되어 있어 3D 기하학이 부족하고 정밀한 공간 추론에 어려움을 겪습니다. 본 연구(Yilun Du 포함)는 구조화된 4D (3D + 시간) 잠재 예측 모델을 구축하여, 로봇 계획을 위해 물리적으로 일관된 미래 예측을 제공합니다.

Zhiyi Li et al. · arXiv 2607.01166 source

ABot-M0.5: 이동성 (mobility)과 조작 (manipulation)을 통합하는 월드-액션 모델 (world-action model) · world-model

모바일 조작(Mobile manipulation)은 현재의 체화 학습 접근 방식에 여전히 어렵습니다. ABot-M0.5는 '세 계층 정렬'(시간적 세분성, 액션 공간, 훈련-테스트 일관성)에 중점을 두고, 중간 암시적 액션(intermediate implicit actions)을 사용하여 비디오 라텐트와 체화 제어(embodied control)를 연결함으로써 단일한 월드-액션 모델 내에서 이동성과 조작을 통합합니다. Hugging Face 트렌딩 점수: 8.

Ronghan Chen 외 연구진 · arXiv 2607.00678 출처 · 분석: Shuyuan AI 출처 (WeChat, CN)

Valdi: 가치, 보상 및 동역학을 공동 예측하는 가치-확산 월드 모델 (value-diffusion world model) · world-model

확산 모델(Diffusion models)은 불확실한 미래 동역학을 포착할 수 있지만, 반복 추론(iterative inference)이 느리고 저지연 라텐트 공간 계획에는 적합하지 않습니다. Valdi는 온라인 제어 루프 내에서 종단 간(end-to-end) 라텐트 확산 동역학 모델을 TD-MPC 스타일로 훈련하여, 표현력과 온라인 사용성을 균형 있게 맞추면서 가치 함수, 보상 및 동역학을 동시에 예측합니다.

Christopher Lindenberg, Kashyap Chitta · arXiv 2607.00917 출처 · 분석: Shuyuan AI 출처 (WeChat, CN)

월드 모델을 '심판'으로 활용하기: RoboWorld의 신경 시뮬레이션이 범용 정책을 평가하다 · benchmark

비디오 월드 모델을 사용하여 범용 로봇 정책을 평가하는 것은 실제 로봇 배포를 우회할 수 있지만, 월드 모델 자체의 오류로 인해 롤아웃(rollouts)이 신뢰하기 어려우며 추론 속도가 느립니다. RoboWorld는 이번 주 논의에서 언급된 '월드 모델은 참가자가 아니라 심판'이라는 점을 반영하여 빠르면서도 신뢰할 수 있는 정책 평가를 목표로 합니다.

Byeongguk Jeon 외 연구진 (KAIST) · arXiv 2607.01060 출처

인간 손 촉각 사전 학습을 정교한 조작에 전이하기 · perception

촉각은 접촉이 많은 작업(contact-rich tasks)에서 시각만으로는 대체할 수 없는 힘 피드백을 제공하지만, 촉각 장비가 갖춰진 데이터셋은 규모 면에서 작고 접촉 커버리지 면에서 좁습니다. 이 논문은 **인간 중심적이고 전이 가능한 촉각 사전 학습(human-centric, transferable tactile pretraining)**을 수행하여 정교한 조작에서의 촉각 데이터 병목 현상을 완화하며, 이는 '촉각 기반 모델(tactile foundation models)'을 둘러싼 당일의 흐름과 공명합니다.

Chi Zhang 외 연구진 · arXiv 2607.01067 출처

Fei-Fei Li, Jim Fan, Danfei Xu: 정교한 손 데이터가 '잘못된 경로'를 걸었을 수 있다 · manipulation

세 명의 저자는 정교한 손 학습에 대한 현재 접근 방식을 되돌아보는 글을 공동 작성했으며, 100시간 분량의 양손(bimanual) 정교한 손 원격 조작 데이터셋을 공개했습니다. 이 데이터셋은 200개 이상의 일상 사물, 22개의 모션 프리미티브(grasping, squeezing, insertion, wiping, folding 등), 그리고 7,700개가 넘는 궤적을 다루며, 인간 조작 사전 지식(human manipulation priors)을 더 잘 반영하는 데이터로 정교한 조작을 재구성해야 한다고 주장합니다.

Fei-Fei Li, Jim Fan, Danfei Xu 외 연구진 · 분석: DeepTech 출처 (WeChat, CN)

FurnitureVLA: 실규모 양손 가구 조립을 위한 VLA · vla

기존 로봇 가구 조립 작업은 대부분 장난감 규모에 머물거나 단일 팔(single-arm)에 국한되어 있습니다. FurnitureVLA는 실규모 양손(real-scale bimanual) 가구 조립을 위한 VLA의 최초 체계적인 연구로, 장기 지평선(long-horizon)의 양손 조작을 실질적인 시나리오에 더 가깝게 끌어올립니다.

Chenyang Ma 외 연구진 · arXiv 2607.01212 출처

오늘의 다른 논문들: 실패 인지 재시도 (failure-aware retry)를 통해 테스트 시간 복구 (test-time recovery) 및 지속적인 개선을 가능하게 하는 FAR (arXiv 2607.01111 출처); 로봇 공장을 위한 파운데이션 모델 (foundation-model) 서빙 시스템인 ROSA (arXiv 2607.01088 출처); NVIDIA GEAR의 자기 개선 기술 발견 (self-improving skill-discovery) 시스템인 ASPIRE에 관한 논문이 공개되었습니다 (이전에 보고됨, arXiv 2607.00272 출처); MLLM에서 마스크 격리 촉각 정렬 (mask-isolated tactile alignment)을 다루는 Wake up for Touch (arXiv 2607.00302 출처); 월드 모델 (World Models)에서 월드 액션 모델 (World Action Models)으로, 로봇 월드 모델에 대한 튜토리얼 서베이 (tutorial survey) (arXiv 2607.00836 출처); 물리적으로 실행 가능한 월드 모델에서의 경로 계획 (Path Planning in Physically Viable World Models) (arXiv 2607.00673 출처).

오픈 소스 · 도구 · 벤치마크

· Zhiyuan Robotics의 General Training Ground: 실제 로봇 데이터, 시뮬레이션 평가, 월드 모델, 그리고 로봇 배포를 하나의 오픈 플랫폼으로 연결하여 커뮤니티의 Embodied Policy 학습 및 평가를 지원하며, 이는 오늘 다뤄진 여러 "평가자로서의 월드 모델 (world model as evaluator)" 논문들과 궤를 같이합니다 출처 (WeChat, CN)

· AgiBot의 X-Tokenizer: 교차 모달 (cross-modal) Embodied Action Tokenizer입니다. 이 회사는 새로운 QUANXTA Zero (embodiment-free) 데이터 수집 솔루션과 함께, 멀티모달 정렬 (multimodal alignment)에서 13.5%의 향상과 장기 과제 (long-horizon task) 성능에서 8.25%의 향상을 달성했다고 주장합니다 출처

II. 투자 및 거래

Lexiang Technology (Zeroth) | Pre-A | 약 5억 위안 | 총 10억 위안 규모 · embodied

Ant Group이 주도했습니다. Lexiang은 (중국의 청소 로봇 제조사인) 전 Dreame 임원진에 의해 불과 1년 반 전에 설립되었습니다. 이번 라운드는 이들의 홈 임바디드 AI (embodied-AI) 브랜드인 "Zeroth"(협동, 동반, 휴머노이드 및 기타 제품 형태를 아우름)의 출시와 시기가 맞물렸습니다. 이 회사는 상반기 매출이 약 600% 성장했으며 약 30,000건의 주문을 기록했다고 주장합니다. 가정용 시나리오는 현재 임바디드 AI (embodied AI) 자본 흐름의 새로운 중심지입니다. 출처: Robotics Outlook source (WeChat, CN)

CarbonSix (South Korea) | Series A | 4,000만 달러 (약 600억 원) · industrial

DSC Investment와 LB Investment가 공동 주도하였으며, KDB, IMM 및 기존 시드 라운드 주주들이 참여했습니다. CarbonSix는 공장을 위한 피지컬 AI (physical AI) 시스템(로봇 지능 소프트웨어 및 매니퓰레이터/엔드 이펙터)을 구축하며, 배포 과정에서 생산 라인 데이터를 수집하여 모델에 다시 피드백하는 "데이터 플라이휠 (data flywheel)" 접근 방식을 사용합니다. 이 회사는 이미 상업적 계약과 매출을 확보하고 있다고 밝혔습니다. 출처: Chosunbiz source

Agility Robotics | SPAC 상장 | 기업 가치 약 25억 달러 · humanoid

미국의 휴머노이드 로봇 제조사인 Agility는 Churchill Capital XI와 합병하여 티커 AGLT로 상장할 계획이며, 이번 거래를 통해 (Foxconn이 주도한 PIPE를 포함하여) 6억 달러 이상의 자금을 조달할 예정입니다. 이 회사의 이족 보행 로봇인 Digit은 이미 Schaeffler, GXO, Toyota Canada를 포함한 10곳의 고객 사이트에 배치되었으며, 3억 달러 이상의 다년 계약을 보유하고 있습니다. 이는 Agility를 미국 시장에서 몇 안 되는 "휴머노이드 전문 (pure-play humanoid)" 기업 중 하나로 자리매김하게 합니다. 출처: MarketBeat source

VAST | 신규 라운드 | 10억 위안 이상 · world-model

VAST는 3D 생성 (3D generation) 분야에서 시작하여, 이번 신규 라운드에서 10억 위안(RMB) 이상을 유치했으며 **월드 모델 (world models)**로 피벗(pivoting)하고 있습니다. 이들은 월드 모델을 활용하여 진입 장벽이 낮은 인터랙티브 콘텐츠 플랫폼을 지원하는 것을 목표로 합니다. Geely Capital은 단 하루 만에 두 개의 Embodied AI/월드 모델 기업에 투자했으며, 이번 라운드가 그중 하나입니다. 출처: GeekPark source (WeChat, CN)

Kunlunxing Robotics | 3회 연속 라운드 | 누적 수백억 위안(RMB) · embodied

Casstar (Zhongke Chuangxing), Hillhouse Ventures, Banyan Capital, Zhending Capital 등의 지원을 받고 있습니다. 이 회사는 설립 후 90일 이내에 유니콘 기업 가치에 도달했다고 밝혔으며, 이는 중국에서 가장 빠르게 성장하는 Embodied AI 스타트업으로서 새로운 기록을 세운 것입니다. 이러한 "설립과 동시에 유니콘"이라는 서사가 빈번하게 등장하는 것 자체가 현재 해당 분야가 과열되어 있다는 신호이기도 합니다. 출처: Beijing Fund Industry Association source (WeChat, CN)

Luxonis | Series A | 1,400만 달러 ($14 million) · hardware

Insights

FutureX · Physical AI Daily — Issue 46 (07/03)

요약

핵심 포인트

I. 연구 진척 상황

오픈 소스 · 도구 · 벤치마크

II. 투자 및 거래

댓글

4가지 명령어로 AI 에이전트의 사각지대 점검하기

메시지 테이블이 없다고! 내가 만든 Claude 기반 챗봇의 데이터 모델링

Robinhood, 글로벌 확장, AI 에이전트 및 '24/7' 거래 추진에 주가 급등

Nvidia, 하드웨어 판매 외에 AI 클라우드 매출의 일부를 가져가는 새로운 선택적 금융 수단 제안 — 토큰을 매출 배분으로 교환

메시지 테이블이 없다고! 내가 만든 Claude 기반 챗봇의 데이터 모델링

Robinhood, 글로벌 확장, AI 에이전트 및 '24/7' 거래 추진에 주가 급등

Nvidia, 하드웨어 판매 외에 AI 클라우드 매출의 일부를 가져가는 새로운 선택적 금융 수단 제안 — 토큰을 매출 배분으로 교환