FutureX · Physical AI Daily — Issue 41 (06/28) - Insights | Molayo

오늘의 하이라이트

· USC와 협력 연구진이 전신 이동-조작 (whole-body loco-manipulation)을 위한 VLA 파운데이션 모델(foundation model)인 Ψ₀를 오픈 소스로 공개했습니다. 이 모델은 약 1/10의 데이터만을 사용하면서도, 여러 장기적 정교한 조작 (long-horizon dexterous manipulation) 작업에서 2위인 GR00T N1.6을 40% 이상 상회하는 성능을 보여주었습니다.

· 중국의 촉각 AI 스타트업인 Sharpa는 Tsinghua, Berkeley 등과 협력하여 FTP-1을 출시했습니다. 이들은 이를 21개의 이질적인 촉각 센서 (heterogeneous tactile sensors)와 다양한 형태 (embodiment types)를 아우르는 단일 정책 (policy)을 가진 최초의 범용 촉각 파운데이션 모델 (tactile foundation model)이라고 주장합니다.

· 중국 로보틱스 스타트업인 Tashi Zhihang는 중국 자동차 와이어 하네스 (wire harness) 선두 기업인 Tianhai Electronics와 유연한 와이어 하네스의 대규모 로봇 조립을 추진하기 위한 협약을 체결했습니다. 이는 와이어 하네스 생산 라인에 적용된 세계 최초의 Embodied Intelligence (체화된 지능) 배포 사례로 평가받고 있습니다.

· Tesla Optimus용 유성 롤러 스크류 (planetary roller screws)의 주요 공급업체인 Xinjian Transmission (중국 정밀 구동 부품 제조사)의 ChiNext IPO 신청이 승인되었습니다. 로보틱스 부품 제조사들이 중국 A주 시장 상장에 박차를 가하고 있습니다.

· 중국의 Embodied Intelligence (체화된 지능) 분야는 올해 상반기에 460억 위안 이상을 조달했습니다. 전 세계 로보틱스 투자액은 약 160억 달러로 기록적인 수치를 달성했습니다. 이는 '버블 압착 (bubble squeeze)'에 대한 논쟁이 심화되는 가운데 이루어진 성과입니다.

I. 연구 및 논문

Ψ₀: 데이터 효율성을 강조한 전신 이동-조작을 위한 오픈 소스 VLA 파운데이션 모델 · vla

GR00T 및 π0와 함께 오픈 소스 휴머노이드 파운데이션 모델 (foundation model) 라인업에 추가된 Ψ₀는 데이터 효율성 측면에서 주목할 만합니다. 약 800시간의 인간 비디오 + 30시간의 실제 로봇 데이터로 학습된 이 모델은, 10배 더 많은 데이터로 학습된 베이스라인 모델들을 여러 장기 정교 조작 (long-horizon dexterous manipulation) 벤치마크에서 능가하며, 2위인 GR00T N1.6보다 40% 이상 뛰어난 성능을 보여줍니다. 아키텍처 측면에서는 Qwen3-VL을 시각-의미론적 백본 (visual-semantic backbone)으로 사용하고 MM-DiT 플로우 매칭 (flow matching) 액션 전문가를 활용하며, VLA 추론 지연 (inference latency)으로 인한 액션 지터 (action jitter)를 완화하기 위해 학습 중 실시간 청킹 (real-time chunking)을 적용합니다. 가중치(Weights)와 코드는 오픈 소스로 공개되었습니다.

USC PSI Lab × NVIDIA × WorldEngine · Commentary: AI 共享前沿 source (WeChat, CN)

FTP-1: 최초의 범용 촉각 파운데이션 모델 주장, 21개 센서를 아우르는 단일 정책 · perception

촉각 감지 (Tactile sensing)는 오랫동안 파편화된 환경에 갇혀 있었습니다. 모델 하나당 하나의 센서 유형, 하나의 손, 하나의 작업 세트만을 다루어 왔으며, GelSight, 힘/토크 (force/torque) 및 기타 센서들은 입력 형식, 해상도, 폼 팩터 (form factor) 면에서 서로 호환되지 않아 경험을 전이할 수 없었습니다. FTP-1은 21개의 이질적인 센서 유형과 다양한 형태의 체현 (embodiment)을 단일 정책 (policy) 아래 통합하며, 촉각이 단순히 시각-언어 모델 (vision-language model)의 보조 입력으로 기능하는 것이 아니라 독립적이고 고주파수이며 전이 가능한 표현 및 제어 경로를 가져야 한다고 주장합니다. 연구팀은 이를 최초의 범용 촉각 파운데이션 정책이라고 주장합니다.

Sharpa × Tsinghua University × UC Berkeley × Shanghai Jiao Tong University × ETH Zürich · Commentary: 新浪财经 source

Fei-Fei Li: 월드 모델의 기능적 분류학 — "월드 모델"을 세 가지 유형으로 분해 · world-model

거의 모든 비디오 생성 시스템에 "월드 모델 (world model)"이라는 라벨이 남용되는 상황에 대응하여, Fei-Fei Li는 기능적 분류학 (functional taxonomy)을 제안합니다. 그녀는 월드 모델을 역할에 따라 렌더러 (renderers) (인간이 볼 수 있도록 픽셀을 출력), 시뮬레이터 (simulators) (물리/역학에 따라 상태 전이를 전파), 그리고 플래너 (planners) (궤적에 따른 행동 선택)의 세 가지 유형으로 나눕니다. 이 세 가지는 "공간 지능 (spatial intelligence)"을 뒷받침하는 폐쇄 루프 (closed loop)를 형성합니다. 이 목표는 설계, 평가 및 툴체인 (toolchains)을 위한 더 명확한 어휘를 제공하고, 진정한 월드 모델을 순수 시각 생성 (visual generation)과 구분하는 데 있습니다.

Fei-Fei Li (World Labs / Stanford) · 해설: 梧桐区评论 출처 (WeChat, CN)

LeCun의 진영, JEPA 월드 모델에 공식 이론을 추가하다 · world-model

Fei-Fei Li의 기능적 분류학을 보완하며, Yann LeCun의 팀은 JEPA (Joint Embedding Predictive Architecture)에 대한 수학적 근거를 제공합니다. 이는 JEPA가 충실한 월드 모델을 학습할 수 있는 조건을 정의하며, 벤치마크 결과 현재의 구현체들은 여전히 상당히 **취약 (fragile)**하며 해당 표준에 훨씬 미치지 못함을 보여줍니다. 이는 대규모 언어 모델 (LLMs)이 월드 모델로서 역할을 할 수 없으며, 월드 학습은 단어 수준의 통계가 아닌 표현 공간 (representation space)에서 이루어져야 한다는 LeCun의 오랜 주장에 이론적 및 경험적 근거를 제공합니다.

Yann LeCun의 팀 · 해설: 图灵人工智能 출처 (WeChat, CN)

오늘의 다른 논문들:
World Pilot — 연속적인 접촉 상호작용 (continuous contact interactions)에서 정적 이미지-텍스트 사전 학습 (static image-text pretraining)이 남기는 간극을 해결하기 위해 "세계-행동 (world-action)" 사전 지식 (priors)으로 VLA를 가이드함 출처 (WeChat, CN); GeoAlign — 그리퍼 가장자리 접촉 (gripper edge-contact) 및 투명 객체 위치 파악 (transparent object localization)과 같은 정밀 작업의 정확도를 향상시키기 위해 VLA의 기하학적 정렬 (geometric alignment)을 강화함 출처 (WeChat, CN); Looped World Models — 자신보다 10배 큰 베이스라인 모델들에 비해 상당한 파라미터 효율성 이득을 주장하는 1B 파라미터 순환형 세계 모델 (recurrent world model) 출처 (WeChat, CN); 제로샷 정책 (zero-shot policies)으로서의 세계 행동 모델 (World Action Models), 공유된 Transformer를 통해 인지 (perception), 행동 (action), 미래 상태 (future states)를 공동으로 모델링함 출처 (WeChat, CN); Berkeley "Do as I Do" — YouTube 영상을 시청함으로써 로봇이 여러 가지 숙련된 조작 기술 (dexterous manipulation skills)을 스스로 학습하도록 교육함 출처 (WeChat, CN); VLA 미세 조정 (fine-tuning) 이후 언어 지시 수행 (language instruction following) 능력이 저하되는 것을 완화하는 단 한 줄의 옵티마이저 (optimizer) 변경 [출처 (WeChat,

CN)](https://mp.weixin.qq.com/s?__biz=MzcxMDIwMjQ0OA==&mid=2247489078&idx=6&sn=6f8cf11a6f3888a767e98d71ed89937b&chksm=f4ea0c59c24ba786b5e18a6d2f8fe682a9764a030a2908917340f81bbc3c43ccf5403e9951dc#rd).

오픈 소스 · 도구 · 벤치마크 (Open Source · Tools · Benchmarks)

· Qwen-AgentWorld / Qwen-RobotWorld: Alibaba는 언어, 가상, 물리 세계를 대상으로 하는 세 가지 범주의 "세계 모델 (world model)" 프레임워크를 점진적으로 오픈 소스로 공개하고 있으며, 커뮤니티 참여를 활용하여 연구 영향력을 구축하고 있습니다 출처 (WeChat, CN)출처 (WeChat, CN).

· LabVLA: Zhejiang University의 zjunlp 연구실이 과학 실험실 시나리오를 위한 Embodied VLA 모델을 출시하였으며, 가중치(weights)와 코드를 HuggingFace 및 GitHub에 오픈 소스로 공개했습니다. 이는 과학을 위한 AI (AI for Science)를 "생각"에서 "실행"의 단계로 격상시킵니다 출처 (WeChat, CN).

· Kaiwu World Model 3.0: SenseTime (중국 AI 기업)의 자회사인 Daxiao Robotics (중국 Embodied AI 스타트업)가 출시했습니다. 이들은 이를 중국에서 상용 배포를 달성한 최초의 오픈 소스 세계 모델이라고 주장합니다 출처 (WeChat, CN).

II. 투자 및 거래 (Funding & Deals)

Simple AI (深朴智能) ｜ 신규 라운드 ｜ 수억 위안 (RMB) · embodied

Linear Capital과 Puhua Capital이 이번 라운드를 주도했으며, Junshan 등이 뒤를 이었습니다. 이는 "인간 학습 (human learning)" 방식을 통해 embodied 파운데이션 모델 (embodied foundation models) 학습에 집중하는 이 범용 embodied intelligence (embodied intelligence) 로봇 기업이 6개월 만에 달성한 세 번째 수억 위안(RMB) 규모의 펀딩입니다. 투자금은 모델 R&D 및 다중 시나리오 검증에 사용될 예정입니다. 출처: 百数朝智网 source (WeChat, CN)

10Beauty ｜ 신규 라운드 ｜ 2,350만 달러 (~1억 6,000만 위안) · adjacent

보스턴에 본사를 둔 AI 네일 케어 로봇 기업인 10Beauty는 이번 자금을 활용해 850대의 완전 자동화된 네일 서비스 유닛을 배치하고 리테일 및 호텔 채널로 확장할 계획입니다. DJI의 전 임원이 이 니치(niche) 서비스 로봇 부문에 합류한 것은 embodied AI 배포가 어떻게 고빈도, 표준화된 수직적 소비자 시나리오에 침투하고 있는지를 보여줍니다. 출처: 具身涌现 source (WeChat, CN)

FaceMind (脸谱心智) ｜ Pre-A ｜ 수천만 위안 (RMB) · world-model

Innok Robotics (Germany) ｜ 신규 라운드 ｜ 330만 유로 이상 · industrial

레겐스부르크 근처에 본사를 둔 Innok는 실외 및 브라운필드 (brownfield, 기존 시설) 환경을 위한 모바일 로봇을 전문으로 합니다. 이번 자금은 사업 확장을 가속화하는 데 사용될 것입니다. 이는 현재 뉴스 사이클에서 비교적 보기 드문 초기 단계의 유럽 로봇 공학 펀딩 사례입니다. 출처: 阿西莫夫的机器人 source (WeChat, CN)

Lanjian Relu ｜ 신규 라운드 ｜ 금액 미공개 · industrial

설립된 지 2년이 채 되지 않은 이 중국 로보틱스(Robotics) 기업은 건설 현장 및 실외 중장비 환경을 목표로 하며, 스스로를 "차세대 노동력"으로 포지셔닝하고 있습니다. 실제 현장 배포에 어려움을 겪는 휴머노이드(Humanoids)를 넘어, 건설 및 엔지니어링 운영은 입증 가능하고 명확한 상업적 수요가 존재하는 몇 안 되는 분야 중 하나입니다. 출처: 科创界 TechIn source (WeChat, CN)

Daxiao Robotics (SenseTime 자회사) ｜ 엔젤+(Angel+) 라운드 ｜ 금액 미공개 · 월드 모델 (world-model)

Kaiwu World Model 3.0을 출시한 SenseTime의 임바디드 인텔리전스 (Embodied Intelligence) 스핀오프(Spin-out) 기업이 올해 상반기 수억 달러의 누적 투자 유치에 이어 엔젤+(Angel+) 라운드를 확보했습니다. 이는 주요 기술 기업의 임바디드 AI (Embodied AI) 부문이 스핀오프하여 독립적인 자본을 조달하는 추세가 지속되고 있음을 보여줍니다. 출처: 企投通 source (WeChat, CN)

III. 상업적 배포 (Commercial Deployment)

Galaxy General (银河通用), Galbot G1 주문 급증 보고 및 생산 확대 박차 · 임바디드 (embodied) ⚠️ 미확인 — 단일 출처 주장

FutureX · Physical AI Daily — Issue 41 (06/28)

요약

핵심 포인트

I. 연구 및 논문

오픈 소스 · 도구 · 벤치마크 (Open Source · Tools · Benchmarks)

II. 투자 및 거래 (Funding & Deals)

III. 상업적 배포 (Commercial Deployment)

댓글