FutureX · Physical AI Daily — Issue 35 (06/22)
요약
중국의 휴머노이드 로봇 육성 계획과 촉각 기반 조작 모델인 T-Rex 연구, 그리고 유럽 로보틱스 스타트업의 대규모 투자 소식을 다룹니다. 범용 로봇 발전을 위한 Stanford의 포지션 페이퍼와 Tesla 로보택시의 현황도 포함되어 있습니다.
핵심 포인트
- 중국, 2026년까지 1만 대 규모의 휴머노이드 배포 역량 구축 목표
- T-Rex 모델, 촉각 피드백을 통해 미세 조작 성공률 30% 향상
- 스페인 Theker, Samsung과 LVMH 등으로부터 7,300만 유로 투자 유치
- Stanford, 범용 로봇을 위한 VLA 및 월드 모델 이상의 인터페이스 필요성 제기
- Tesla 로보택시, 초기 운영 단계에서 확장성 한계 노출
오늘의 주요 뉴스
· 중국 공업정보화부(MIIT)와 국유자산감독관리위원회(SASAC)가 '2026 휴머노이드 로봇 및 Embodied Intelligence (구체화된 지능) 실세계 훈련 특별 행동'을 공동 출시했습니다. 이 이니셔티브는 연말까지 100개 이상의 고가치 배포 시나리오를 식별하고 10,000대 규모의 배포 역량을 구축하는 것을 목표로 하며, "서비스형 휴머노이드 로봇 (Humanoid Robot as a Service)" 리스 모델 탐색을 장려합니다.
· T-Rex (UC Berkeley × Nvidia × Stanford 등) — 대규모 촉각 반응형 정교한 손 모델: 100시간의 실제 하드웨어 촉각 데이터와 3개 전문가 MoT (Mixture of Transformers) 아키텍처를 통해 12가지 미세 조작 작업에서 가장 강력한 베이스라인보다 평균 30% 이상 높은 성공률을 달달성했습니다. 촉각 신호를 제거할 경우 성능이 23% 하락합니다.
· 스페인의 Theker가 CRV가 주도하는 7,300만 유로(약 8,500만 달러) 규모의 Series A 투자를 유치했습니다. Samsung과 LVMH가 스페인 기업에 처음으로 투자했으며, Inditex는 지분을 확대했습니다. 이는 유럽 로보틱스 Series A의 새로운 기록을 세웠습니다.
· Stanford가 주도하는 다기관 포지션 페이퍼(position paper)는 범용 로봇이 "VLA (Vision-Language-Action) + 월드 모델 (world-model) 정책 스케일링" 이상의 것이 필요하다고 주장합니다. 실제 격차는 방대한 비구조적 물리적 경험을 **네 가지 누락된 인터페이스 (four missing interfaces)**를 통해 로봇 감독(supervision)으로 접지(grounding)하는 데 있습니다.
· Tesla의 Austin 로보택시(robotaxi) 함대는 현재 운영 중인 차량이 60대 미만이며, 승객 대기 시간이 눈에 띄게 깁니다. 이는 회사가 밝힌 올해의 확장 야망과는 대조되는 초기 단계의 현실입니다.
I. 연구 논문
T-Rex: 정교한 손이 "행동하며 느낄 수 있게" 하는 촉각 반응형 조작 파운데이션 모델 (Foundation Model) · manipulation
오늘날 대부분의 VLA (Vision-Language-Action) 모델은 촉각 피드백을 무시하거나 정적인 촉각 인코딩 (static tactile encodings)만을 사용하며, 본질적으로 "시각에 의존하여 작동"합니다. T-Rex는 고주파 촉각 정보를 자체적인 실시간 반응 경로로 전환하여, 시각만으로는 처리하기 어려운 미끄러짐 감지 (slip detection), 힘 제어 (force control), 부드러운 물체 잡기 (soft-object grasping)와 같이 접촉 집약적인 작업들을 직접적으로 해결합니다.
Zhuoyang Liu et al. (UC Berkeley · Nvidia · Stanford · Panasonic · Sapienza University of Rome, et al.) · arXiv 2606.17055 source · Commentary: 机器人解剖师 source (WeChat, CN)
연구팀은 200개 이상의 일상적인 물체, 22가지 운동 프리미티브 (motor primitive) 유형, 그리고 동기화된 촉각 신호를 포함하여 실제 하드웨어의 정교한 손 조작 데이터 100시간을 수집한 후, 세 명의 전문가로 구성된 Mixture-of-Transformers 아키텍처를 단계별로 학습시켰습니다. Latent Expert는 약 23,000시간의 1인칭 시점 (egocentric) 인간 비디오로 사전 학습되어 미래의 잠재 상태 (latent states)를 예측하는 월드 모델 (world model) 역할을 수행하며, Action Expert는 노이즈로부터 5 Hz의 거친 동작 (coarse actions)을 생성하고, Tactile Expert는 시공간적으로 인코딩된 촉각 신호를 사용하여 20 Hz의 최종 동작을 생성합니다. 이 세 명의 전문가는 flow matching 환경에서 서로 다른 디노이징 (denoising) 단계를 처리합니다. 저주파 및 고주파 전문가가 비동기적으로 작동함으로써, 고주파에서의 촉각 기반 미세 조정 (fine-grained adjustments)이 가능해집니다. 정밀한 힘 제어와 변형 가능한 물체 조작 (deformable object manipulation)이 필요한 12가지 작업 전반에 걸쳐, 평균 성공률은 가장 강력한 베이스라인 (Pi0.5 포함)보다 30% 이상 높았습니다. 절제 연구 (ablations) 결과, 촉각 입력을 제거할 경우 성능이 약 23% 저하되는 것으로 나타났습니다. 프로젝트 페이지에는 전구를 돌려 끼우는 것과 같은 인터랙티브 데모가 포함되어 있습니다.
로봇에게 필요한 것은 VLA와 월드 모델 그 이상이다: 부족한 부분은 더 큰 정책 (policies)이 아니라 접지 (grounding)이다 · vla
이 포지션 페이퍼(position paper)는 "더 많은 로봇 데이터 + 더 큰 VLA = 범용 로봇"이라는 주류 내러티브에 직접적으로 도전하며, 현재의 VLA/월드 모델(world-model) 군비 경쟁에 대한 날카로운 반론으로서 "접지 중심(grounding-centric)" 프레임워크를 제안합니다.
Elis Karcini 외 (Motoniq.ai · Stanford · Italian Institute of Technology IIT · ETH Zurich · TU Darmstadt, et al.) · arXiv 2606.06556 source · Commentary: paper艾克赛 source (WeChat, CN)
이 논문은 언어 및 시각 파운데이션 모델(foundation models)이 성공한 이유는 인터넷 데이터가 본질적으로 디지털이며 밀도 높게 라벨링(labeled)되어 있기 때문이라고 주장합니다. 반면 "물리적 텍스트(physical text)" — 인간의 조작 비디오, 모션 캡처(motion capture), 공장 워크플로(workflows) — 는 풍부하지만 액션 라벨(action labels), 힘 신호(force signals), 태스크 시맨틱스(task semantics), 그리고 보상 구조(reward structure)가 부족하여 로봇 정책(robot policies)이 직접 소비하기에는 부적합합니다. 저자들은 VLA를 더 큰 "물리적 지능 스택(physical intelligence stack)" 내의 단일 정책 인터페이스로 재정의하며, 누락된 네 가지 구성 요소를 식별합니다: 비정형 행동을 자동으로 주석 처리(annotating)하기 위한 데이터 인터페이스(data interface), 인간의 행동을 로봇의 형태(morphologies)로 리타겟팅(retargeting)하기 위한 엠보디먼트 인터페이스(embodiment interface), 물리적 3D 추론을 위한 월드 모델 인터페이스(world model interface), 그리고 비디오와 언어로부터 태스크 진행 상황과 성공을 추론하기 위한 **보상 인터페이스(reward interface)**입니다. 이들은 함께 실패를 포함한 모든 물리적 경험이 감독 신호(supervisory signal)가 되는 자기 개선형 배포 루프(self-improving deployment loop)를 형성합니다. 이것은 개념적인 포지션 페이퍼(position paper)이며 구체적인 알고리즘 구현을 포함하고 있지는 않습니다.
VLA Survey: 병목 현상은 모델만이 아니다 — 데이터셋, 벤치마크, 그리고 데이터 엔진이다 · benchmark
2023~2025년 사이 VLA (Vision-Language-Action)를 뒷받침하는 세 가지 인프라 기둥을 철저하게 매핑하였으며, 기존 벤치마크(benchmarks)가 주로 짧은 테이블탑(tabletop) 작업에 국한되어 있고 장기적 성능(long-horizon performance) 및 오류 복구(error recovery)를 충분히 평가하지 못하고 있다는 명확한 진단을 내리고 있습니다. 평가나 모델 선택을 수행하는 모든 이들에게 유용한 읽을거리입니다.
Survey · Commentary: 具身智能与空间感知 source (WeChat, CN)
이 서베이(survey)는 VLA 학습 및 평가를 지원하는 세 가지 인프라 기둥인 데이터셋(datasets), 벤치마크(benchmarks), 그리고 데이터 엔진(data engines)을 체계적으로 검토합니다. 또한 기존 벤치마크들이 일반적으로 성공률(success rate)을 통해 능력을 측정하지만, 실제 환경 배포에 있어 가장 중요한 역량인 장기적 작업(long-horizon tasks), 다단계 구성(multi-step composition), 교차 장면 일반화(cross-scene generalization) 또는 오류 복구(error recovery)를 다루는 경우는 드물다는 점을 지적합니다.
Unified World Model Survey: Decomposing the Functional Modules from "Understanding" to "Acting" · world-model
Survey · Commentary: 具身智能排行榜 source (WeChat, CN)
이 서베이는 현대적인 월드 모델(world models)을 인코더(encoder), 역학 예측(dynamics prediction), 보상/가치 추정(reward/value estimation) 등의 기능적 모듈(functional modules)로 분해하며, 범용 구체화된 지능(general embodied intelligence)의 기초 구성 요소로서 "세상을 이해하는 것"과 "그 안에서 행동하는 것"을 하나의 프레임워크로 통합하는 방법에 대해 논의합니다.
오늘의 다른 논문들: Fei-Fei Li의 "A Functional Taxonomy of World Models" — 통일된 기능적 분류를 통해 과부하된 용어인 "world model (세계 모델)"을 명확히 정의함 출처 (WeChat, CN); 시계열을 위한 "Granger Causal Discovery (그랜저 인과 발견)"가 세계 모델을 향해 나아가며, 순수 예측보다 인과성 (causality)을 강조함 출처 (WeChat, CN); Nanyang Technological University는 물리 시뮬레이션 (physics simulation) 지원 기능이 있는 3D 생성 모델을 소개하였으며, 생성된 에셋은 로봇 학습에 직접 배포 가능함 출처.
Open Source · Tools · Benchmarks
· DreamX-World 1.0: AMAP (중국 매핑 및 내비게이션 플랫폼)이 범용 인터랙티브 세계 모델의 오픈 소스 버전을 출시했으며, 공식 계정은 16 FPS 실시간 생성을 주장함 (해당 모델은 원래 6월 중순에 발표되었으며, 이번 출시는 오픈 소스 버전임) 출처 (WeChat, CN).
II. Funding & Deals
Theker (Spain) | Series A | €73 million (~$85 million) · industrial
CRV가 주도하고 Samsung, LVMH (Aglaé Ventures를 통해), Cathay Innovation, 20VC, Henkel Ventures가 참여하였으며, 기존 투자자인 Inditex (Zara의 모기업)가 지분을 확대했습니다. 이는 유럽 로보틱스 역사상 최대 규모의 Series A 투자이며, 동시에 CRV의 첫 스페인 투자이자 Samsung과 LVMH의 첫 스페인 스타트업 투자이기도 합니다. 2022년에 설립된 Theker는 AI, 컴퓨터 비전 (Computer Vision), 딥러닝 (Deep Learning)을 적용하여 산업 환경의 작업을 자동화합니다. 이번 투자금은 주요 산업 고객사들과의 배포를 가속화하고 소프트웨어 및 하드웨어 팀을 확장하는 데 사용될 예정입니다. 중국의 로보틱스 자금이 휴머노이드 임바디드 AI (Embodied AI)에 집중되어 있는 반면, 이번 거래는 패션 리테일 및 가전 분야를 아우르는 유럽의 산업 자본이 하드웨어 플랫폼 경쟁을 건너뛰고 산업 자동화를 위한 AI 소프트웨어 계층에 직접 투자하고 있음을 시사합니다. 출처: 六观阿尔法 source (WeCan, CN)
LISSOME (중국) | Series A | 수천만 위안 (RMB) · 인접 분야 (adjacent)
Sequoia China와 Brizan Ventures가 주도하고 기존 투자자 및 HKX가 후속 투자를 진행했습니다. LISSOME는 AI 주방 로봇 기업을 표방하며, 이전에 작고 빠르고 깨끗한 캡슐 식기세척기를 통해 소비자 시장에 진출한 바 있습니다. 소비자용 주방 로보틱스 분야에 대한 일류 펀드들의 지원은 임바디드 AI (Embodied AI)의 배포가 공장과 물류를 넘어 고빈도 가계 사용 사례로 확장되고 있음을 반영합니다. 출처: 硬氪 source (WeChat, CN)
Feikuo Technology (중국 항저우) | Series A | 수억 위안 (RMB) · 임바디드 (embodied)
Cybernaut Investment (중국 PE firm)이 주도하고 Dangvirtual Technology, Meigao Intelligent, Shengao Technology가 공동 투자했습니다. 이 회사는 로보틱스를 위한 임바디드 인텔리전스 (embodied intelligence) 솔루션을 개발하며, 최근 중국의 로봇 "두뇌/솔루션" 계층에 집중된 펀드레이징(fundraising) 흐름의 한 사례입니다.Source: 高工人形机器人 source (WeChat, CN)
ANSCER Robotics (인도) | Series A | $5.4 million · industrial
자금은 산업용 자재 취급을 위한 하이브리드 자율 이동 로봇 (AMR) 플랫폼의 규모를 확장하고 북미 및 글로벌 시장으로 진출하는 데 사용될 예정입니다. 이 인도 AMR 제조업체는 AMR의 유연성과 AGV의 신뢰성을 결합한 현장 통합 역량을 통해 차별화를 꾀하고 있습니다.Source: 中叉网 source (WeChat, CN)
Weekly Capital Summary · embodied
업계 미디어 집계에 따르면, 지난 한 주 동안 중국의 15개 임바디드 로보틱스 (embodied robotics) 기업이 총 60억 위안 (RMB) 이상을 조달했습니다. Laifu Harmonic (중국 하모닉 감속기 제조업체)은 홍콩 증권거래소 상장 심사를 통과했습니다. 해양 로보틱스 기업인 Shihang Intelligent의 10억 위안(RMB) 이상의 Series A와 Daka Robotics의 최근 수억 위안(RMB) 규모 라운드는 이전에 보고된 바 있습니다.Source: 高工机器人 source (WeChat, CN)
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기