FutureX · Physical AI Daily - Issue 42 (6/29) - Insights | Molayo

오늘의 주요 내용

· AgiBot(중국 휴머노이드 로봇 회사)은 지난 3월 말에 10,000대 유닛을 출시한 지 불과 몇 달 만에 15,000번째 체화된 로봇을 출시하며, 휴머노이드 대량 생산 규모와 속도 면에서 새로운 글로벌 기록을 세웠다고 주장했습니다. 6일간의 공장 라이브 스트림에서는 약 **99.99%**의 작업 성공률이 보고되었습니다(라이브 스트림 수치).

· 현대자동차그룹은 소프트뱅크가 보유한 보스턴 다이내믹스의 나머지 지분 9.7%를 3억 2,500만 달러에 인수하여 완전 소유권을 확보할 예정입니다. 아틀라스(Atlas)의 생산 버전은 2028년 미국 조지아주 현대차 전기차 공장에 투입될 계획입니다.

· 상하이 혁신 연구소와 AgiBot이 세계 최대 규모의 오픈소스 체화된 월드 모델인 τ0-WM을 공개했습니다. 이 모델은 55억 개 파라미터와 약 27,300시간의 사전 학습 데이터를 보유하고 있으며, 미래 비디오 예측, 액션 생성 및 액션 평가를 단일 백본으로 통합합니다.

· 칭화대학교는 휴머노이드의 전신체 로코-매니퓰레이션(whole-body loco-manipulation VLA) 레시피인 OpenHLM을 오픈소스로 공개했습니다. 이 모델은 강력한 기준선 대비 절반 이하의 데모 데이터만 사용하면서도 장기 지평 작업에서 평균 작업 진행률 **87.5%**를 달성했습니다(GR00T N1.6 대비 57.5%).

· UC 샌디에이고 팀은 월드 모델의 '환각(hallucinations)'을 체계적으로 분석하여 세 가지 실패 유형으로 분류하고, 이러한 오류가 레이블 없는 신호(ρ≈0.8)를 사용하여 예측될 수 있으며, 단 50개의 궤적만으로도 모델을 새로운 환경에 적응시켜 전문가 데이터 성능에 근접함을 보여주었습니다.

I. 연구 논문

τ0-WM: 세계 최대 오픈소스 체화 월드 모델 · world-model

이 모델은 이전에는 분리되어 있던 세 가지 능력인 미래 비디오 예측, 액션 (action) 생성, 그리고 액션 품질 평가를 단일 비디오 DiT 백본 (backbone)으로 통합합니다. 이를 통해 월드 모델 (world model)이 실행 전에 후보 미래를 "상상"하고, 그럴듯해 보이지만 과업 수행에는 도움이 되지 않는 액션을 걸러낼 수 있도록 합니다. 55억 개 (5.5B) 개의 파라미터와 약 27,300시간의 이질적인 데이터(17,800시간의 실제 로봇 원격 조작 데이터 포함)로 사전 학습(Pretrained)되었으며, 공구함 정리, 배낭 지퍼 채우기, 파이프 결합과 같은 장기적(long-horizon) 숙련 조작 과업에서 검증되었습니다. 모델과 데이터 모두 완전히 오픈소스로 공개되어, 현재까지 가장 큰 규모의 오픈소스 체화 월드 모델 (embodied world model)입니다.

Shanghai Innovation Institute × AgiBot · arXiv 2606.01027 https://arxiv.org/abs/2606.01027 · Analysis: 真的在读论文 source

OpenHLM: 휴머노이드 전신 이동-조작을 위한 오픈소스 VLA 레시피 · locomotion

"휴머노이드는 이족 보행 및 양팔 플랫폼 그 이상이어야 한다"는 관점에 대응하여, 칭화대학교 연구진은 전신 이동-조작 (whole-body loco-manipulation)을 구축하는 방법을 체계적으로 제시합니다. 관절 공간(joint-space) 전신 원격 조작을 통한 데이터 수집, 비-휴머노이드 사전 학습 유지, 다단계 플로우(multi-step flow)를 통한 절대 관절 값 생성, 그리고 직립 원격 조작 및 HuMI 프레임워크(실제 로봇 불필요)와 같은 저비용 데이터 소스를 통한 능력 확장 등이 포함됩니다. 자체 구축한 HLM-12 장기 과업 제품군에서, 이 모델은 두 가지 강력한 베이스라인(baseline)의 절반도 안 되는 시연(demonstration) 횟수를 사용하여 평균 **87.5%**의 과업 진행도를 달성했습니다. 이는 GR00T N1.6 (57.5%)과 Ψ0 (48.8%)을 훨씬 상회하며, 전신 원격 조작 오라클 (whole-body teleoperation oracle, 97.5%)에 근접하는 수치입니다.

Tsinghua University Institute for Interdisciplinary Information Sciences (Gao Yang group) 외 연구진 · arXiv 2606.22174 https://arxiv.org/abs/2606.22174 · 분석: 机器之心 출처

세계 모델의 '환각(Hallucinations)'은 예측하고 최소한의 데이터로 수정할 수 있다 · world-model

생성형 세계 모델(Generative world models)은 종종 실제 물리 법칙에서 이미 벗어난, 시각적으로 부드러운 시퀀스를 렌더링합니다. 이는 계획 및 제어에 의존하는 시스템에게 매우 위험한 '조용한 오류'입니다. 이 연구는 환각을 지각적 환각(perceptual hallucination), 행동 주변화(action marginalization), 장면 발산(scene divergence)의 세 가지 실패 유형으로 분류합니다. 그리고 레이블이 필요 없는 세 가지 런타임 신호(Spearman ρ≈0.8로 실제 오류와 상관관계)를 식별하며, 환각이 근본적으로 데이터 커버리지 문제임을 주장합니다. 이 신호들을 사용하여 호기심 기반의 데이터 수집을 수행하면, 단 **50개 궤적(trajectories)**만으로 모델을 새로운 환경에 적응시키고 전문가 수준의 성능에 도달하는 것이 충분하다고 말합니다. 함께 제공되는 MMBench2 벤치마크는 427시간, 210개의 태스크, 그리고 10개의 도메인을 다룹니다.

Nicklas Hansen, Xiaolong Wang (UC San Diego) · 분석: 具身智能漫谈 출처

NavWM: 탐색 성공률을 거의 두 배로 높이는 통합 세계 모델 · autonomy

대부분의 시각적 내비게이션 정책 (visual navigation policies)은 "단일 결정론적 미래 (single deterministic future)" 내에서 작동하며, 이로 인해 복잡한 교차로에서 진동하거나 루프를 도는 현상이 발생합니다. NavWM은 양방향 Mamba 백본 (bidirectional Mamba backbone)을 사용하여 인지 (perception), 궤적 예측 (trajectory prediction), 미래 프레임 생성 (future-frame generation)을 통합합니다. 즉, 궤적 앵커 (trajectory anchors)를 통해 한 번의 패스 (pass)로 여러 후보 경로를 회귀 (regressing)한 다음, 세계 모델 (world model)을 사용하여 각 경로를 "시각적으로 시뮬레이션 (visually simulate)"하고 최적의 경로를 선택합니다. 1.5B 파라미터 (parameters) 규모인 이 모델은 차순위 방법론과 비교했을 때 절대 궤적 오차 (absolute trajectory error)를 30% 이상 줄였으며, 학습되지 않은 장면 (unseen scenes)에서 0.44의 제로샷 성공률 (zero-shot success rate)을 달성했습니다. 이는 경쟁 방식들보다 거의 두 배 높은 수치입니다.

중국과학원 자동화연구소 (Institute of Automation, Chinese Academy of Sciences) × 베이항 대학교 (Beihang University) · 분석: 集智实验室 source

LA4VLA: 언어-행동 사전 학습 (Language-to-Action Pretraining)의 시각 분리 · vla

표준 VLA 학습에서는 언어 신호가 밀집된 시각-행동 상관관계 (visual-action correlations)에 의해 압도됩니다. 즉, 모델이 지시를 따르는 것처럼 보이지만 실제로는 시각적 지름길 (visual shortcuts)을 이용하는 것입니다. 진단 실험에 따르면 시각 정보와 언어 정보가 충돌할 때 모델은 시각 정보를 따르는 것으로 나타났습니다. 상하이 교통 대학교 (Shanghai Jiao Tong University)와 Alibaba의 연구진은 언어-행동 사전 학습을 명시적으로 분리함으로써 이 문제를 해결합니다. 먼저 시각 입력 없이 (no visual input) 언어 지시가 연속적인 행동 (continuous actions)을 어떻게 제약하는지 학습한 다음, 이를 표준 VLA 학습과 결합합니다. 이를 통해 다운스트림 정책 (downstream policy)의 성능과 시각적 섭동 (visual perturbation) 하에서의 강건성 (robustness)을 향상시켰습니다.

상하이 교통 대학교 (Shanghai Jiao Tong University, MINT) × Alibaba · github.com/MINT-SJTU/LA4VLA · 분석: 具身智能之心 source

오늘의 다른 논문들: Nvidia 연구진이 주도한 "World Action Models (WAM)"에 관한 서베이 논문으로, "상상을 위한 사전 학습(pretrain to imagine), 행동을 위한 미세 조정(fine-tune to act)"이라는 급격히 부상하는 패러다임을 매핑합니다. 또한, 비디오 생성 모델(video generation models)의 상당한 추론 격차를 드러내는 303개의 질문으로 구성된 ECCV 2026 벤치마크가 소개되었습니다.

오픈 소스 · 도구 · 벤치마크

· Unitree Qmini: Unitree(중국 로보틱스 기업)가 일반 소비자용 3D 프린터로 출력 가능한 구조적 부품과 학습 코드를 포함하여 1,000달러 미만의 이족 보행 로봇 프로젝트를 오픈 소스로 공개했습니다. 이는 데이터와 생태계를 얻기 위해 오픈 소스 접근 권한을 교환하는 전략입니다.

· Alibaba Qwen Language World Model: Alibaba가 MCP, 검색, 터미널, 소프트웨어 엔지니어링을 포함한 7가지 환경을 다루는 에이전트형 월드 모델(agentic world model)을 오픈 소스로 공개했으며, 여러 지표에서 GPT-5.4를 능가한다고 주장했습니다. 참고: 이는 에이전트를 위한 언어 월드 모델(language world model)이며, 체화된/물리적 월드 모델(embodied/physical world models)과는 구별됩니다 ⚠️ 벤더 수치.

· Zhicheng AI (중국 물리 AI 스타트업) Chengling V0.1: Zhicheng AI가 새로운 펀딩 라운드와 함께 자사의 "Chengling" 물리 지능 월드 모델(physical intelligence world model) V0.1을 오픈 소스로 공개했으며, TR4 Pro 및 TR5 Pro 휴머노이드 제품을 업그레이드했습니다.

II. 펀딩 및 거래

Odyssey ｜ 시리즈 B ｜ 3억 1,000만 달러 ｜ 14억 5,000만 달러 기업 가치 · 월드 모델(world-model)

Natural Capital이 이번 라운드를 주도했으며, Amazon, GV, AMD Ventures, EQT, 그리고 CIA의 In-Q-Tel이 참여했습니다. 또한 AWS와의 우선적 클라우드 파트너십을 체결했습니다. 자율 주행 베테랑들이 설립한 Odyssey는 상호작용형 월드 모델(interactive world models)과 "월드 시뮬레이션(world simulation)"에 집중합니다. 이번 라운드를 통해 유니콘 기업이 되었으며, 이는 월드 모델 기업들에 대한 1차 시장(primary-market)의 지속적인 수요를 보여주는 또 다른 데이터 포인트입니다.

출처: 六观阿尔法 source

RoboScience ｜ 시리즈 A ｜ 10억 위안 · 체화된(embodied)

2024년 말에 설립되어 그동안 저조한 인지도를 유지했던 이 회사는 체화된(embodied) 대형 모델 출시 행사에서 처음으로 대중에게 공개되었으며, 1년 이내에 4차례의 투자 라운드를 마감하여 시리즈 A(Series A)에서 10억 위안을 달성했다고 밝혔습니다. 설립자인 Tian Ye는 Andrew Ng의 지도하에 공부했으며 이전에는 Apple의 AI 플랫폼을 이끌었습니다. 수석 과학자인 Shao Lin은 싱가포르 국립대학교(NUS) 조교수이자 ICRA 최우수 논문상 수상 및 후보에 두 차례 오른 인물입니다. 이 회사는 원격 조작(teleoperation)의 규모를 확장하는 대신, 자체 물리 엔진인 RoboMirage와 결합하여 VLA에 객체 궤적(Object trajectory) "O"를 추가한 VLOA를 제안함으로써 자동화된 데이터 플라이휠(data flywheel)을 구축하고자 합니다. 이들은 샘플당 데이터 비용을 수 위안에서 1센트 미만으로 줄일 수 있다고 주장합니다. 교차 체화(Cross-embodiment) 전이율과 Sim-to-Real 성능은 실제 환경에서 검증되어야 할 과제로 남아 있습니다.

출처: 白鲸实验室 source

SnowOrigin ｜ 신규 라운드 ｜ Gong Hongjia, Lu Qi 등이 투자 · 인접(adjacent)

Gong Hongjia(중국 보안 거물 Hikvision의 공동 창립자), Lu Qi(중국의 저명한 기술 투자사인 Qizhi Ventures의 창립자) 및 해외 기관들이 이 신경 상호작용(neural interaction) 기업을 지원했습니다. 이 회사는 신경 손목밴드를 사용하여 팔뚝의 표면 근전도(electromyographic) 신호를 포착하고, 이를 1인칭 시점(first-person-view) 장치 및 AI와 결합하여 인간의 손 포즈와 힘의 역학(force dynamics)을 로봇 학습 데이터로 변환합니다. 이는 체화된 AI(embodied AI) 데이터 병목 현상 중 인간 동작 캡처(human motion capture) 계층을 겨냥하고 있습니다.

출처: 高工人形机器人 source

LiberAI ｜ Pre-Series A ｜ Shunwei Capital 주도 · 세계 모델(world-model)

Shunwei Capital (Xiaomi의 Lei Jun이 지원하는 중국 VC)이 이번 라운드를 주도했으며, Cathay Capital, Yuanhe Origin, Muhua Kechuang이 참여했고, Sequoia China와 Zhen Fund가 지속적으로 투자했습니다. 설립된 지 불과 6개월 된 30명 미만의 팀으로 구성된 이 회사는 물리적 세계 모델(physical world models)과 embodied intelligence (체화된 지능)에 집중하며, UMI 하드웨어 및 데이터 수집 인프라를 동반한 "인간 UMI 데이터 + 세계 모델 (world model)" 접근 방식을 추구하고 있습니다.

출처: 高工人形机器人 source

SEAHI ｜ Series A ｜ 10억 위안(RMB) 이상 · 인접 분야 (adjacent)

이번 라운드는 해양 로보틱스(marine robotics) 분야의 단일 라운드 펀딩 규모로 세계 기록을 세웠습니다. Harbin Engineering University 동문들이 설립한 SEAHI는 수중 및 해양 로봇을 전문으로 하며, 이는 벤처 캐피털이 지상 기반 휴머노이드(humanoids)를 넘어 수중 및 특수 목적 애플리케이션으로 확장되고 있다는 신호입니다.

출처: Robot source

III. 상업적 배포 (Commercial Deployment)

AgiBot의 15,000번째 로봇 생산 완료 — 즉시 배포 · 휴머노이드 (humanoid) ⚠️ 라이브 스트리밍 수치

FutureX · Physical AI Daily - Issue 42 (6/29)

요약

핵심 포인트

I. 연구 논문

오픈 소스 · 도구 · 벤치마크

II. 펀딩 및 거래

III. 상업적 배포 (Commercial Deployment)

댓글