FutureX · Physical AI Daily — Issue 36 (06/23) - Insights | Molayo

오늘의 주요 내용

· Nvidia가 로봇공학을 위한 Halos를 출시하며, 자동차 등급 안전 아키텍처를 로봇공학에 확장한 업계 최초의 풀스택(full-stack) 안전 시스템으로 홍보했습니다. Agility Robotics가 가장 먼저 통합하는 기업입니다.

· Bear Robotics가 영국 휴머노이드 스타트업 Kinisi Robotics를 인수하며, KR1 로봇과 Bristol 엔지니어링 팀을 합병하여 '이동성 + 배송'에서 벗어나 정교한 조작(dexterous manipulation)까지 포함하는 엔드투엔드(end-to-end) 물리적 AI 플랫폼으로 확장했습니다.

· **Pony.ai (중국 자율주행 기업)**가 싱가포르 로보택시 서비스를 대중에게 전면 개방하며, 중국 자율주행 분야의 또 다른 해외 상업적 이정표를 세웠습니다.

· General Motors는 이전 1,000개 이상의 일자리를 감축한 후, 디트로이트 Factory Zero 공장에 약 50대의 로봇을 배치하면서 자동화 대 노동 논쟁이 심화됨에 따라 UAW의 거센 항의를 받고 있습니다.

· Haiqing Zhiyuan (중국 물리적 AI 센서 기업)가 홍콩 증권거래소에 상장되었으며, 시장에서는 '최초의 물리적 AI IPO'로 불립니다. 주가는 데뷔일 장 시작과 동시에 300% 이상 급등했습니다.

I. 연구 논문

Ψ₀: 휴머노이드를 위한 오픈소스 전신(whole-body) 이동 및 조작 VLA 백본 — 80개의 실제 로봇 시연만으로 새로운 기술 습득 · vla

휴머노이드의 전신 이동 및 조작에 대한 '대규모 인간 비디오 사전 학습 + 최소한의 실제 로봇 미세 조정' 패러다임을 확장하고, Unitree G1에서 재현 가능하며 즉시 사용 가능한 완전한 sim-to-real 배포 파이프라인을 제공합니다. 오늘 가장 배포 준비가 된 논문입니다.

Commentary: Embodied AI Open-Source Repository source (WeChat, CN)

Ψ₀는 먼저 대규모 1인칭 및 3인칭 인간 비디오로부터 일반적인 조작 사전 지식 (manipulation priors)을 학습한 다음, 새로운 기술당 약 80개의 실제 로봇 시연 (real-robot demonstrations) 데이터만으로 미세 조정 (fine-tuning)을 수행하여 전이 (transfer)를 달성합니다. 이는 협응된 이동 베이스 (mobile-base) 및 상지 조작 (upper-limb manipulation)을 모두 포함합니다. 저자들은 또한 시뮬레이션 학습부터 Unitree G1 (중국 로봇 공학 기업)에서의 실제 로봇 실행까지 이어지는 엔드 투 엔드 (end-to-end) 파이프라인을 공개하여, 휴머노이드의 이동-조작 (loco-manipulation) 결과 재현에 대한 장벽을 낮추었습니다.

DeMaVLA: 변형 가능한 물체를 위한 최초의 일반화 가능한 VLA — 하나의 모델로 다중 카테고리 의류 접기 처리 · 조작 (manipulation)

의류와 같은 변형 가능한 물체 (deformable objects)는 오랫동안 가장 어려운 조작 과제 중 하나였습니다. 무한한 형태 변화로 인해 카테고리별 정책 (category-specific policies)을 일반화하기가 어렵기 때문입니다. 본 연구는 단일 VLA 백본 (backbone)을 통해 다중 카테고리 접기를 완료하려고 시도하며, 조작 분야의 가장 어려운 미해결 문제 중 하나를 다룹니다.

Midea AIR-C 팀 · 논평: Embodied AI Observatory 출처 (WeChat, CN)

기존의 VLA는 주로 카테고리별 정책에 의존하며, 다양한 변형 가능한 물체와 장면 전반에 걸쳐 일반화하는 데 어려움을 겪습니다. DeMaVLA는 다중 카테고리 의류 접기를 핵심 과제로 삼아, '잡기(grasp) → 펼치기(unfold) → 정렬(align) → 접기(fold)'로 이어지는 장기적 시퀀스 (long-horizon sequences)를 의류 유형에 관계없이 완료할 수 있도록 단일 모델을 학습시킵니다. 이는 '카테고리당 하나의 정책'이라는 엔지니어링 패러다임을 넘어서는 것을 목표로 합니다.

GenHOI: 생성된 비디오에서 실제 로봇 실행에 이르기까지 휴머노이드-물체 상호작용 유도 · 조작 (manipulation)

'비디오 생성'에서 '실제 로봇 실행'으로 연결하는 것은 월드 모델 (world models)을 배포하기 위한 결정적인 단계입니다. GenHOI는 생성된 인간-물체 상호작용 (human-object interaction) 영상을 단순히 시각적으로 매력적인 비디오에 그치지 않고, 실행 가능한 로봇 동작으로 전환하는 것을 목표로 합니다.

해설: Embodied AI Research Lab 출처 (WeChat, CN)

이 방법은 먼저 물체와 상호작용하는 휴머노이드의 영상을 생성한 다음, 상호작용 궤적 (interaction trajectories)을 분석하고 리타겟팅 (retargeting)하여 실행 가능한 로봇 동작으로 변환합니다. 이를 통해 생성된 영상에서 실제 로봇 조작 (real-robot manipulation)에 이르는 전체 파이프라인을 완성하며, "데이터로서의 비디오 / 계획으로서의 비디오 (video as data / video as planning)" 접근 방식을 탐구합니다. 구체적인 성공률과 일반화 범위는 원문 논문을 통해 확인해야 합니다.

UDHM / UniDexTok: 숙련된 손을 위한 공유 언어 — 다섯 손가락에서 여섯 개, 스물네 개까지 · 조작 (manipulation)

숙련된 손 (Dexterous hands)은 형태학적 (morphology)으로 매우 다양하며, 그 학습 데이터는 상호 운용이 불가능합니다. 이는 조작 정책 (manipulation policies)을 공유하고 재사용하는 데 어려움을 겪는 근본적인 원인입니다. 본 연구는 인간의 손과 여러 로봇 손을 통일된 관절 표현 공간 (unified joint-representation space)으로 매핑하여, 형태학적 차이를 넘나드는 전이 (cross-morphology transfer)를 위한 기반을 제공합니다.

해설: Embodied Habitat 출처 (WeChat, CN)

통합 숙련 손 모델 (Unified Dexterous Hand Model, UDHM)은 인간의 손과 여러 로봇 손의 관절 포즈 (joint poses)를 공유된 22차원 능동 관절 좌표 공간 (active-joint coordinate space)으로 매핑하며, 각 차원은 인간의 손 해부학을 기반으로 한 의미론적 관절 (semantic joints)로 정의됩니다. 이를 통해 서로 다른 자유도 (degrees of freedom)를 가진 손들을 동일한 표현 체계 아래에서 표현, 전이 및 정렬할 수 있으며, 조작 데이터와 정책의 형태학적 차이를 넘나드는 재사용을 용이하게 합니다.

DeFI: 로봇이 대규모 영상으로부터 실제로 학습할 수 있도록 순방향 예측과 역동학을 분리하기 · vla

주석이 없는 영상으로부터 정책 (policy)을 학습하는 것은 종종 "목표 불일치 (objective misalignment)" 문제를 겪습니다. 즉, 모델이 시각적 프레임은 예측하지만 실행 가능한 행동은 학습하지 못하는 현상입니다. DeFI는 "무엇이 일어날지 예측하기"와 "어떤 행동을 취할지 결정하기"를 별도로 처리하기 위해 분리된 설계를 사용합니다.

ICLR 2026 · Commentary: The Embodied Way source (WeChat, CN)

기존의 VLA (Vision-Language-Action) 모델들이 영상으로부터 직접 학습할 때 발생하는 목표 불일치 문제를 해결하기 위해, DeFI는 순방향 상태 예측 (forward state prediction)을 역동학 (inverse dynamics, 상태 전이로부터 행동을 추론하는 것)과 분리합니다. 이를 통해 "세상이 어떻게 변하는지 이해하는 것"과 "실행 가능한 행동을 출력하는 것"을 별도의 모듈에 할당하여 대규모 영상 데이터를 더욱 효율적으로 활용합니다.

COMAP: 월드 모델을 사용하여 동적 추론에서의 LLM의 약점을 보완하기 · world-model

언어 모델 (Language models)은 정적 지식에는 뛰어나지만, 결과(consequences)를 시뮬레이션해야 하는 작업에는 어려움을 겪습니다. COMAP은 월드 모델 (world model)이 후보 행동에 대한 미래 상태를 예측하게 한 뒤, 이를 다시 피드백하여 의사결정을 개선하도록 합니다. 이는 "월드 모델이 에이전트의 계획 (agent planning)을 강화하는" 구체적인 경로를 제시합니다.

Commentary: Jiqizhixin (중국 AI 미디어) source (WeChat, CN)

월드 모델은 후보 행동에 대한 미래 상태를 예측하고, 에이전트는 이러한 예측을 사용하여 자신의 행동을 최적화합니다. 그 결과로 생성된 궤적 (trajectories)은 자기 증류 (self-distillation)를 통해 다시 피드백되어 월드 모델을 업데이트하며, 하나의 폐쇄 루프 (closed loop)를 형성합니다. 논문에 따르면 COMAP은 embodied task planning, 웹 네비게이션, 도구 사용 (tool-use) 벤치마크 전반에서 Qwen3-4B 대비 약 **16.75%**의 상대적 성능 향상을 달성했습니다.

NTU: 물리 시뮬레이션 지원을 갖춘 최초의 3D 생성 모델 — 생성된 에셋을 로봇 학습에 직접 활용 가능 · world-model

생성형 3D 에셋(Generative 3D assets)은 물리적 상호작용 측면에서 "사용 가능"하기보다는 주로 "보기 좋은" 수준에 머물러 왔습니다. 생성 단계에 시뮬레이션 가능한 물리적 속성(physical properties)을 임베딩(Embedding)한다는 것은 출력물이 로봇 학습에 직접 공급될 수 있음을 의미하며, 이는 합성 데이터 파이프라인(synthetic data pipelines)의 마지막 격차를 해소합니다.

Nanyang Technological University (NTU) · 논평: DeepTech 출처 (WeChat, CN)

연구팀의 3D 생성 모델은 기하학적 에셋(geometric assets)과 함께 물리 시뮬레이션(physical simulation)에 사용할 수 있는 속성을 함께 생성합니다. 이를 통해 생성된 결과물이 단순한 시각적 에셋에 그치지 않고 로봇 학습 및 시뮬레이션 환경에 직접 배포될 수 있도록 하며, 이는 "시뮬레이션 데이터 소스로서의 생성(generation as simulation data source)" 워크플로우를 지향합니다.

오늘의 다른 논문들: villa-X (Microsoft, Latent Action Model을 사용하여 프레임 간 시각적 변화를 잠재 액션 토큰(latent action tokens)으로 압축하며, 미학습 임보디먼트(unseen embodiments)에 대한 제로샷 전이(zero-shot transfer)를 통해 VLA 사전 학습을 강화함); Fast-dVLA (ECCV 2026, 실시간 이산 확산(discrete-diffusion) VLA 추론 가속화); LabVLA (Zhejiang University, 과학 실험 기구 및 투명 액체를 위해 설계된 VLA); EVO-1 (0.77B 경량 VLA, 2.3 GB VRAM, 16.4 Hz, 이미 Qingcang Robotics(중국 로보틱스 기업)를 통해 L'Oréal 생산 라인에 배포됨).

오픈 소스 · 도구 · 벤치마크

· Unitree RL Lab: IsaacLab을 기반으로 구축된 Unitree(중국 로보틱스 기업)의 공식 오픈 소스 강화학습(reinforcement learning) 훈련 환경으로, 완전한 sim-to-real 파이프라인과 함께 Go2/H1/G1 플랫폼을 지원합니다.

· ACE-Ego: Daxiao Robotics(중국 로보틱스 스타트업)와 CUHK MMLab이 공동으로 오픈소스로 공개한 "하나의 뇌, 다중 형태(one brain, multiple embodiments)" 조작 VLA(Vision-Language-Action) 모델입니다. 두 가지 Embodied 벤치마크에서 최고 성능을 기록했다고 주장합니다 (⚠️ 벤치마크 범위; 이 모델은 6월 중순에 처음 보고되었습니다).

II. 투자 및 거래 (Funding & Deals)

NEURA Robotics ｜ 시리즈 C (Series C) ｜ 최대 14억 달러 ｜ 기업 가치 약 70억 달러 · 휴머노이드 (humanoid)

이번 달 초 발표되었으며 이번 주 중국 언론에서 널리 다뤄졌습니다. 투자자로는 Tether, Qualcomm, Amazon, Nvidia, Bosch, Schaeffler, 그리고 유럽 투자 은행(European Investment Bank)이 포함되어 있으며, 전체 금액은 성과 마일스톤 달성을 조건으로 확정되었습니다. 회사는 수주 잔고와 배포 파이프라인이 이미 10억 달러를 초과하며, 2030년까지 수백만 대 생산을 목표로 하고 있다고 밝혔습니다. 이는 전 세계 풀스택 로보틱스 기업이 공개한 것 중 현재까지 가장 큰 규모의 단일 투자 라운드이며, 유럽 로보틱스 자본 서사를 새로운 수준으로 끌어올렸습니다. 출처: NEURA Robotics / CNBC

Bear Robotics, Kinisi Robotics 인수 ｜ M&A · Embodied

Bear Robotics(전 세계적으로 16,000대 이상의 유닛을 배포한 음식 서비스 및 배달 AMR 기업)가 영국 기반의 Kinisi Robotics를 인수하기 위한 최종 계약을 체결했습니다. 이를 통해 KR1 휴머노이드 로봇, Bristol 엔지니어링 팀, 그리고 조작(manipulation) AI 역량을 확보하게 됩니다. 이번 인수는 Bear의 기존 "이동성 + 배달(mobility + delivery)" 스택을 넘어 "정교한 조작(dexterous manipulation)" 계층을 채움으로써, 엔드 투 엔드(end-to-end) 물리 AI 플랫폼을 완성합니다. Kinisi의 창립자 Brennan Pierce는 Bear의 최고 로보틱스 책임자(Chief Robotics Officer)로 재직하며, 지속적인 KR1 플랫폼 개발과 조작 기술 통합을 이끌 예정입니다. 출처: ACN Newswire source

Jiangxing Intelligence ｜ 시리즈 C 및 D (Series C & D) ｜ 수억 위안 (전략적 투자) · 산업용 (industrial)

Jiangxing Intelligence (중국 에지 AI (edge-AI) 및 산업 자동화 스타트업)는 "대규모 물리적 AI (physical AI at scale)"에 집중하며 총 수억 위안 규모의 시리즈 C 및 D 전략적 투자 라운드를 마감했습니다. 이 회사는 산업 현장을 위한 에지 지능 (edge intelligence) 및 장치 자율성 (device autonomy)에서 시작되었습니다. 이번 라운드는 산업 자본 및 전략적 투자자의 참여 패턴을 지속하고 있으며, 이는 자금 조달의 중심이 "두뇌 구축 / 신체 구축"에서 실제 공장 환경에 물리적 AI (physical AI)를 배치하는 애플리케이션 계층 (application layer)으로 이동하고 있음을 반영합니다. 출처: Sohu source

LISSOME ｜ 시리즈 A (Series A) ｜ 수천만 위안 (Tens of millions of RMB) · 구체화된 (embodied)

LISSOME (중국 AI 주방 로봇 스타트업)는 AI 기반 주방 로보틱스에 집중하며 수천만 위안 규모의 시리즈 A 라운드를 마감했습니다. 외식 서비스 및 백오피스 (back-of-house) 운영은 명확한 지불 의사를 가진 비교적 구조화된 구체화된 조작 (embodied-manipulation) 부문을 나타내며, 이 분야는 지속적인 자본의 관심을 끌어오고 있습니다. 출처: Dahe Cube source

FutureX · Physical AI Daily — Issue 36 (06/23)

요약

핵심 포인트

I. 연구 논문

오픈 소스 · 도구 · 벤치마크

II. 투자 및 거래 (Funding & Deals)

댓글