FutureX · Physical AI Daily — Issue 44 (07/01) - Insights | Molayo

오늘의 주요 뉴스

· Uber와 Waymo가 피닉스(Phoenix)에서의 약 3년에 걸친 로보택시 (Robotaxi) 파트너십을 종료합니다: Waymo의 차량 함대는 DoorDash 배송 및 Via 대중교통으로 전환되며, Uber는 Lucid 및 Nuro로 피벗하여 6년 동안 20,000대의 차량을 배치할 계획입니다. 두 회사 모두 오스틴(Austin)과 애틀랜타(Atlanta)에서는 파트너십을 지속합니다.

· UBTECH Robotics (중국 휴머노이드 로봇 기업)가 소비자 브랜드 "UWORLD"를 통해 풀사이즈 초생체(ultra-bionic) 휴머노이드 로봇 U1을 출시했습니다. 가격은 RMB 119,800–990,000이며 88자유도 (degrees of freedom)를 갖추어 가정용 정서적 동반자를 목표로 합니다. 사전 판매 주문은 11,000대를 초과했습니다 (⚠️ 사전 판매 수치).

· 월드 모델 (World model) 스타트업 투자 열풍이 지속되고 있습니다: Forbes는 이 분야가 올해 수십억 달러를 조달했다고 보고했습니다. 오늘 칭화대학교(Tsinghua) 계열의 Liqi Intelligence가 수억 위안 규모의 시드 라운드를 마감했으며, Dexmal은 IPO를 목표로 10억 위안 규모의 시리즈 B (Series B)를 완료했습니다 (Zibianliang 및 Zhipingfang으로부터 상속된 기업 가치 RMB 200억).

· Apptronik이 오스틴에 약 90,000 sq ft 규모의 "Robot Park" 훈련 시설을 개소하고 Apollo 2 (이족 보행 + 바퀴형)를 공개했습니다. 이들은 휴머노이드 AI 훈련을 위한 실세계 데이터 수집을 위해 Google DeepMind와 파트너십을 맺었습니다.

· Laifual Drive (중국 하모닉 드라이브 제조사)가 홍콩 증권거래소에 상장하며 홍콩 시장 최초의 **"하모닉 감속기 주식 (harmonic reducer stock)"**이 되었으며, 약 HKD 1.07 billion을 조달했습니다. 휴머노이드 로봇용 하모닉 감속기 양산에 성공한 단 두 개의 중국 제조사 중 하나입니다 (⚠️ 3년 연속 손실).

I. 연구 논문 (Research Papers)

DreamForge-World 0.1: 저연산, 실시간 상호작용 월드 모델 프리뷰 · world-model

월드 모델 (World models)은 일반적으로 오프라인 생성 (offline generation)과 높은 연산 요구량 (high compute demands)에 의해 제약을 받습니다. 본 논문은 저연산 프리뷰에서 제어 가능한 실시간 상호작용 (real-time interactive) 월드 시뮬레이션을 제공합니다. 이 모델은 LongLive 자기회귀 비디오 스택 (LongLive autoregressive video stack, Wan2.1-T2V-1.3B에서 파생됨) 위에 잔차 액션 경로 (residual action pathway)를 추가하며, Matrix-Game 개념을 활용하여 "액션을 입력함과 동시에 미래 프레임을 생성"하는 것을 달성합니다. 이 논문은 오늘 최고의 커뮤니티 논문 (HF 7↑)으로 선정되었으며, 월드 모델의 엔지니어링 방향이 오프라인의 긴 비디오 생성에서 상호작용이 가능한 저지연 (low-latency) 시스템으로 전환되고 있음을 보여줍니다.

Daniyel Ayupov et al. · arXiv 2606.30292 source

Orca: 멀티모달 월드 신호를 "범용 월드 파운데이션 모델"로 통합하기 · world-model

현재의 월드 모델은 작업(task)이나 모달리티(modality)별로 별도로 구축되는 경향이 있습니다. Orca는 통합된 월드 잠재 공간 (unified world latent space)을 학습하여, 멀티모달 월드 신호로부터 공유된 표현 (shared representations)을 습득하고 이를 멀티모달 판독 인터페이스 (multimodal readout interfaces)를 통해 노출하는 것을 시도합니다. 이는 "하나의 베이스로 다양한 다운스트림 활용"을 가능하게 하는 월드 파운데이션 모델 (world foundation model) 패러다임을 지향합니다.

Yihao Wang et al. · arXiv 2606.30534 source

Heterogeneous Tactile Transformer: 이기종 촉각 센서를 연결하는 단일 표현 · perception

촉각 데이터의 가장 큰 고충은 센서 간의 호환성이 없다는 점입니다. 즉, 한 센서로 학습된 모델은 다른 센서로 전이될 때 실패하며, 이로 인해 대규모 데이터 집계가 어렵습니다. HTT는 이기종 촉각 센서 전반에 걸쳐 **공유된 표현 (shared representations)**을 학습하여, 서로 다른 촉각 하드웨어에서 발생하는 접촉 데이터를 학습을 위해 통합할 수 있게 합니다. 이는 오늘날 촉각 데이터 인프라 투자(Qianjue, South China University of Technology, Weitai) 흐름에 대응하는 알고리즘적 대응물입니다.

Jianxin Bi et al. · arXiv 2606.29948 source

전문가 수준의 로봇 탁구 구현을 위한 Sim-to-Real 물리 모델링 · manipulation

고속 회전하는 탁구공의 궤적은 직관에 반합니다. 로봇은 0.1초도 안 되는 짧은 시간 내에 공을 정확하게 추적하고 반격해야 하며, 실제 환경에서의 학습은 비용이 많이 들고 위험합니다. Sony AI 팀은 고충실도(high-fidelity) 물리 모델을 구축하고, 시뮬레이션에서 강화학습 (RL) 정책을 학습시킨 후 이를 실제 로봇으로 전이(transfer)하여 전문가 수준의 고속 경기를 목표로 합니다. 이는 역동적이고 접촉 제약이 있는 제어 작업에 대한 어려운 Sim-to-Real 벤치마크입니다.

Christian Conti et al. (Sony AI) · arXiv 2606.28805 source

Human2Any: 제약 조건을 인식하는 인간에서 로봇으로의 구성적 전이 · manipulation

인간의 비디오는 조작(manipulation) 감독을 위한 확장 가능한 소스이지만, 형태학적 차이(morphology gaps), 장면 변화, 그리고 로봇의 실행 가능성 제약으로 인해 직접적인 전이가 어렵습니다. Human2Any는 제약 조건 인식 구성적 계획(constraint-aware compositional planning)을 사용하여 인간의 시연을 서로 다른 로봇이 실행할 수 있는 동작으로 변환함으로써 체현 차이(embodiment gap)를 완화합니다. 공동 저자에는 NVIDIA 연구진이 포함되어 있습니다.

Shuo Cheng et al. (incl. NVIDIA) · arXiv 2606.28813 source

AnyBody: 임의의 키포인트 부분 집합에 의해 구동되는 전신 휴머노이드 제어 · locomotion

AnyBody는 배포 시점에 **임의의 신체 키포인트 부분 집합(any subset of body keypoints)**으로 명령을 내릴 수 있는 통합 전신 휴머노이드 컨트롤러를 제안합니다. 손, 발, 또는 몸통 목표만을 지정하는 것만으로도 조화로운 전신 동작을 생성하기에 충분하며, 이는 원격 조종(teleoperation) 및 모션 리타겟팅(motion retargeting)의 유연성을 향상시킵니다.

Shuning Li et al. · arXiv 2606.29209 source

Trust Your Instincts: 자체 신뢰도를 이용한 테스트 시간 RL 기반의 VLA · vla

시각-언어-행동 모델 (Vision-Language-Action models, VLA)에 강화학습 (Reinforcement Learning, RL)을 적용하려면 일반적으로 외부 환경의 피드백과 사전에 정의된 성공 신호가 필요합니다. 본 논문은 모델이 **자신의 신뢰도 (its own confidence)**를 테스트 시간 강화학습 (test-time RL)을 위한 내재적 신호로 사용하게 함으로써, 외부의 성공 판단 없이도 온라인 자기 개선 (online self-improvement)을 가능하게 합니다. 이는 VLA 강화학습의 배포 장벽을 낮춰줍니다.

Siyao Chen 외 · arXiv 2606.29892 source

You Only Touch Once: 단 한 번의 접촉을 통한 6-DoF 객체 포즈 추정 · perception

시각적 포즈 추정 (Visual pose estimation)은 폐쇄 (occlusion), 반사 표면 또는 투명한 객체로 인해 실패하는 경우가 많습니다. YOTO는 접촉 이력이 필요하지 않은 **단 한 번의 동시 접촉 쌍 (single simultaneous contact pair)**만으로 객체의 전체 6-DoF 포즈를 복원하며, 접촉이 빈번한 조작 (contact-rich manipulation)을 위한 순수 촉각 포즈 소스를 제공합니다.

Pengfei Ye 외 · arXiv 2606.28899 source

오늘의 기타 논문들: 확률적 세계 모델링 (Stochastic World Modeling)을 위한 특징 공간에서의 플로우 매칭 (Flow Matching in Feature Space) (저자진에 INRIA, Meta FAIR 등이 포함됨); SA-VLA (이산적 행동 재구성 정확도를 향상시키는 상태 인식 행동 토크나이저 (state-aware action tokenizer)); OWMDrive (인과 관계를 인식하는 엔드투엔드 주행을 위한 4D 점유 세계 모델 (4D occupancy world model)); WARP (오프라인 인간 시연으로부터의 전신 리타겟팅 (whole-body retargeting), 모바일 조작 확장); TacGen (촉각 데이터 부족 문제를 해결하기 위한 시각-촉각 정렬 및 생성 (vision-to-tactile alignment and generation)); J-LAW (결합 위치 추정 및 실행 가능한 세계 모델링을 위한 결합 잠재 요인 그래프 (coupled latent factor graph)); RoboGaze (로봇 세계 모델이 생성한 비디오를 평가하기 위한 구조화된 시각-언어 분석); X-Mind (Xpeng의 엔드투엔드 주행을 위한 예측적 세계 사고 사슬 (predictive world CoT), 이미 업계 측에 보고됨).

Open Source · Tools · Benchmarks

· Ruka-v2: NYU가 손목 및 손가락 외전(abduction)을 포함한 핵심 자유도(degrees of freedom)를 다루는 완전 오픈소스 힘줄 구동식 정교한 손(tendon-driven dexterous hand)을 공개하며, 수만 달러에 달하는 '상용 손'을 저비용으로 재현 가능한 대안으로 대체하고 정교한 조작 연구의 진입 장벽을 낮추는 것을 목표로 합니다.

· Qwen-AgentWorld: Alibaba가 에이전트 중심의 '언어 세계 모델(language world model)'을 오픈소스로 공개했는데, 이는 AI가 다음 단계를 결정하기 전에 언어적으로 행동의 결과를 정신적으로 시뮬레이션할 수 있게 해줍니다.

II. 자금 조달 및 투자 건 (Funding & Deals)

Laifual Drive (03952.HK) | 홍콩 IPO | 약 10억 7천만 HKD 유치 · 하드웨어

Dexmal | 시리즈 B | 10억 RMB | 기업 가치 100억 RMB 초과 · 체화 지능(embodied)

선전 기반의 체화 AI 기업 Dexmal(중국 체화 AI 스타트업)이 10억 RMB 규모의 시리즈 B 투자를 유치하며, 100억 RMB 기업 가치 클럽에 합류하고 IPO를 목표로 하고 있습니다. Shenzhen Capital Group은 연속된 두 라운드에 투자했으며, Lens Technology(창립자 Zhou Qunfei)는 고객사에서 주주로 지위를 격상했습니다. 이 회사의 2026년 상반기 매출액은 1억 RMB에 근접할 것으로 예상되며, 연간 목표는 2억 5천만~3억 RMB입니다. 이들은 기초 세계 모델(foundational world models), 물리 엔진(physics engines) 및 휴머노이드 로봇 배포에 중점을 두고 있으며, 실제 매출을 제시한 몇 안 되는 체화 AI 유니콘 기업 중 하나입니다. 출처: Pencil News (중국 스타트업 미디어) 출처 (WeChat, CN)

Liqi Intelligence (칭화대 연계) | 시드 라운드 | 수억 RMB · 세계 모델

Tsinghua University(칭화대) 연계 세계 모델(world model) 스타트업인 Liqi Intelligence (중국 AI 스타트업)가 Shunwei Capital, Sequoia China, Hillhouse, Xinglian이 모두 참여한 수억 RMB 규모의 시드 라운드(seed round)를 마감했습니다. 이 팀은 "세계 모델 (world model)"이라는 라벨을 의도적으로 낮게 평가하며, 데이터, 모델, 하드웨어 및 인프라를 실제 시나리오에서 실제로 작동하는 시스템으로 결합하는 것을 강조합니다. 이는 "물리 + 데이터 이중 플라이휠 (physics + data dual-flywheel)" 접근 방식에 대한 투자자들의 선호도를 반영합니다. 출처: 36Kr source (WeChat, CN)

Yisheng Technology (HKU 교수 창업) | 엔젤 라운드 (Angel Round) | 수억 RMB · 인접 분야

University of Hong Kong(홍콩대) 교수가 창업한 Yisheng Technology (중국 AI 스타트업)가 "로봇을 위한 메모리 시스템 구축"에 집중하며 수억 RMB 규모의 엔젤 라운드(angel round) 투자를 유치했습니다. 이는 체화된 지능 (embodied intelligence)에서 오랫동안 간과되어 온 메모리 및 장기적 일관성 (long-horizon consistency) 문제를 해결하는 데 중점을 둡니다. 출처: 36Kr Hardware (중국 기술 미디어) source (WeChat, CN)

NeoWa Robotics | 엔젤 라운드 (Angel Round) | 5,000만 RMB · 체화된 (embodied)

NeoWa Robotics (중국 체화된 (embodied) AI 스타트업)가 Lanhu Capital의 주도로 Butong Capital과 Gongqingcheng Puyi가 참여한 5,000만 RMB 규모의 엔젤 라운드 (Angel Round)를 마감했습니다. 이는 불과 두 달 전 Plug and Play China가 주도한 시드 라운드를 마감한 데 이은 성과입니다. 창업자는 Baidu의 자율주행 및 로보틱스 연구소 책임자 출신으로, "체화된 지능 (embodied intelligence) / 범용 이동 모델 (universal traversal models)"에 집중하고 있습니다. 같은 날 상하이의 다른 7개 기업도 새로운 투자 라운드를 마감하며, 체화된 (embodied) AI 분야에서 초기 단계의 밀도 높은 딜 플로우 (deal flow)가 지속되고 있음을 보여주었습니다. 출처: Tech Capital Circle (중국 미디어) source (WeChat, CN)

III. 상업적 배포 (Commercial Deployment)

Amazon, 자율적인 패키지 전달 기능을 갖춘 차세대 창고 로봇 Proteus 공개 · 산업용 (industrial)

Amazon은 음성 명령 (voice command) 지원 기능을 갖추고, 창고 내 한 로봇에서 다음 단계로의 완전한 **자율적 패키지 전달 (autonomous package handoffs)**을 가능하게 하는 차세대 자율 이동 로봇(AMR) Proteus를 공개했습니다. 세계 최대 규모의 창고 로보틱스 운영사인 Amazon의 이번 반복 (iteration)은 창고 자동화가 "지점 솔루션 분류 (point-solution sorting)"에서 "연속적인 무인 물류 흐름 (continuous unmanned material flow)"으로 전환되고 있음을 시사합니다. 출처: MSN/Fox 59 source

HAI Robotics "Flash Climb" 시리즈, 글로벌 파트너십 10,000대 돌파 · 산업용 (industrial)

창고 로봇 공학 기업인 HAI Robotics (중국 창고 로봇 제조사)는 Arvato와의 협업을 통해 유럽의 뷰티 리테일러(beauty retailer)를 위한 옴니채널 스마트 창고를 지원하는 것을 포함하여, 자사의 "Flash Climb" 시리즈가 글로벌 파트너십 기준 10,000대를 돌파했다고 보고했습니다. 박스 핸들링 (box-handling) 창고 로봇 공학 분야에서는 규모가 해자 (moat)가 되었으나, "파트너십 규모"는 현재 설치된 기반 (installed base)이라기보다는 누적 수치입니다 (⚠️ 공급업체 수치). 출처: Ikanchai source

Insights

FutureX · Physical AI Daily — Issue 44 (07/01)

요약

핵심 포인트

I. 연구 논문 (Research Papers)

Open Source · Tools · Benchmarks

II. 자금 조달 및 투자 건 (Funding & Deals)

III. 상업적 배포 (Commercial Deployment)

댓글

Ai2가 Hugging Face에 OlmoEarth Base 모델을 출시했습니다

당신의 AI 에이전트에는 GPU가 필요합니다 — 하지만 당신이 생각하는 이유 때문은 아닙니다

MemoryOps AI 구축: AI 어시스턴트를 위한 관리형 메모리 레이어

확률적 표면(Stochastic Surface) 축소하기: 확률적 시스템을 위한 설계 표준

Ai2가 Hugging Face에 OlmoEarth Base 모델을 출시했습니다

당신의 AI 에이전트에는 GPU가 필요합니다 — 하지만 당신이 생각하는 이유 때문은 아닙니다

MemoryOps AI 구축: AI 어시스턴트를 위한 관리형 메모리 레이어

확률적 표면(Stochastic Surface) 축소하기: 확률적 시스템을 위한 설계 표준