FutureX · Physical AI Daily — Issue 37 (06/24) - Insights | Molayo

오늘의 주요 뉴스

· Kunlunxing Robotics (중국 휴머노이드 스타트업): 전 Alibaba Group 부사장 Ren Geng과 전 Li Auto (중국 전기차 제조사) 자율주행 책임자 Lang Xianpeng가 공동 설립한 이 기업은 설립 후 90일 이내에 3차례의 투자 라운드를 완료하며 총 수십억 위안(RMB)을 조달하고 기업 가치 10억 달러를 돌파했습니다. 이는 중국의 Embodied AI (체화된 AI) 스타트업 중 가장 빠른 '0에서 유니콘'으로의 성장 기록을 세운 것입니다.

· Momenta (중국 자율주행 기업): 홍콩 증권거래소 상장 심사를 통과했으며, 최초의 "Physical AI (물리적 AI)" IPO가 될 수 있는 이번 상장을 통해 최소 10억 달러(USD) 이상의 자금 조달을 목표로 하고 있습니다. 투자 설명서에 따르면 라이선스 매출이 3년 만에 42배 이상 성장(2,300만 위안 → 9억 6,800만 위안)했습니다.

· Zhiyuan Robotics (중국 휴머노이드 제조사): G2 로봇을 위한 6일간의 공장 라이브 스트리밍을 시작했습니다. 이들은 휴머노이드가 3C 태블릿 품질 검사 라인 전체를 엔드 투 엔드(end-to-end)로 수행하는 것이 세계 최초라고 주장하고 있습니다 (⚠️ 라이브 스트리밍 시연이며, 양산 단계는 아님).

· 실제 주문과 인도가 같은 날 이루어졌습니다: Galaxy General Robotics (중국 Embodied AI 기업)는 이빈(Yibin)에서 500대의 Embodied 로봇 공급을 위한 2억 3,600만 위안 규모의 입찰을 수주했습니다. 또한, Yuchai (중국 엔진 제조사)의 플라이휠 레인지 익스텐더(flywheel range-extender) 시스템을 장착한 120대의 자율 주행 광산 트럭이 신장(Xinjiang)의 한 탄광에 인도되었습니다.

· Embodied AI 데이터 인프라에 대한 투자가 거침없이 이어지고 있습니다: Lightwheel AI (중국 Physical AI 데이터 기업)는 추가로 10억 위안을 조달하여, 2주 동안 두 차례의 라운드를 통해 약 20억 위안을 확보하며 Physical AI 데이터 및 평가 인프라 구축을 가속화하고 있습니다.

I. 연구 논문 (Research Papers)

Vesta: 범용 Embodied 추론 모델 · vla

위치 파악(localization), 공간 추론(spatial reasoning), 내비게이션(navigation), 그리고 장기 계획(long-horizon planning)을 단일 파운데이션 모델(foundation model)에 통합함으로써, 배포 비용이 높고 오류가 누적되기 쉬운 기존의 "중첩된 전문 모델(stacked specialist models)" 문제를 해결하고자 합니다. 이는 NVIDIA가 GR00T에 이어 내놓은 "하나의 모델이 모든 것을 수행한다"는 전략에 대한 최신 베팅입니다.

Johan Bjorck 외 (NVIDIA) · arXiv 2606.20905 https://arxiv.org/abs/2606.20905

이 접근 방식은 두 가지 구성 요소로 이루어져 있습니다: 공간적 접지 (spatial grounding)를 유도하기 위해 정교하게 구축된 확장된 코퍼스(corpus), 그리고 확장된 시간 지평 (extended time horizons)에 걸친 추론을 지원하는 경량 멀티모달 메모리 하네스 (multimodal memory harness)입니다. 저자들은 Vesta가 여러 벤치마크에서 개별 단일 작업 최첨단 (state-of-the-art) 베이스라인들을 평균 20% 이상 능가하며, 카테고리별 최적 모델들의 앙상블 (ensemble)보다 10% 이상 앞선다고 보고했습니다. 이를 통해 단일 범용 모델이 전문화된 모델들의 조합과 대등하거나 이를 능가할 수 있음을 주장합니다.

OpenHLM: 전신 휴머노이드 이동-조작을 위한 레시피 (A Recipe for Whole-Body Humanoid Loco-Manipulation) · locomotion

대부분의 기존 휴머노이드 시스템은 상체와 하체를 두 개의 별도 컨트롤러로 분리하며, 이로 인해

이 접근 방식은 상호작용형 비디오 월드 모델 (Video World Model) 위에서 온라인 강화학습 (Online Reinforcement Learning)을 수행합니다. 월드 모델은 행동 조건부 미래 예측 (Action-conditioned future predictions)을 생성하고, 전용 ResNet 성공 분류기 (Success classifier)가 각 단계에서의 성공/위험을 추정함으로써, 정책 (Policy)이 물리적 로봇에서 위험한 행동을 반복적으로 시도하지 않고도 "상상 (Imagination)" 속에서 안전한 행동을 학습할 수 있도록 합니다.

MemoryVAM: 비디오 행동 모델에 에피소드 메모리 장착하기 (Equipping Video Action Models with Episodic Memory) · manipulation

비디오 월드 모델 정책 (Video world model policies)은 짧은 윈도우 (Window)만을 관찰합니다. 올바른 행동이 프레임 밖으로 밀려난 이벤트에 의존하게 되면, 장기적 조작 (Long-horizon manipulation)은 비마르코프적 (Non-Markovian) 문제로 퇴화합니다. 본 논문은 이러한 정책에 "방금 일어난 일을 기억하는" 능력을 추가합니다.

Yuxin Jiang et al. · arXiv 2606.20679 https://arxiv.org/abs/2606.20679

핵심은 Recap-Cue 모듈입니다. Perceiver 기반의 Recap Compressor가 프레임당 CLIP 임베딩 (CLIP embeddings)을 압축된 메모리 토큰 (Memory tokens)으로 압축하며, 경량화된 Cue Gate가 메모리와 언어를 결합하여 작업 완료 여부를 추정합니다. 이 토큰들은 비디오 백본 (Video backbone)과 행동 디코더 (Action decoder) 모두에 주입되어, 정책의 "상상"을 작업 진행 상황에 맞추고 과거 이력에 따라 행동을 조건화합니다.

Geometric Entropy: 궤적 다양성이 모방 학습에 도움이 될 때와 해가 될 때 (Geometric Entropy: When Trajectory Diversity Helps — and Hurts — Imitation Learning) · manipulation

"더 다양한 시연 (Demonstrations)이 더 좋다"는 것은 모방 학습 (Imitation learning)에서의 일반적인 직관입니다. 본 논문은 정량화 가능한 지표를 통해 이를 절반만 증명합니다. 즉, 다양성에는 최적의 범위가 존재하며, 과도한 다양성은 성능을 저해합니다.

Qian Luo et al. · arXiv 2606.20871 https://arxiv.org/abs/2606.20871

저자들은 타겟 포즈(target poses) 및 작업 공간 스케일(workspace scale)에 정렬한 후, 내재적인 궤적 형상 다양성(intrinsic trajectory shape diversity)을 정량화하는 태스크 불가지론적(task-agnostic) 지표인 기하학적 엔트로피 (Geometric Entropy, $H_G$)를 제안합니다. 다양한 모방 학습 (imitation learning) 아키텍처, 시뮬레이션 및 실제 접촉이 빈번한 (contact-rich) 작업 전반에 걸쳐, 성공률은 $H_G$와 일관된 역 U자형 (inverted-U) 관계를 보입니다. 즉, 다양성이 낮을 때는 더 많은 다양성이 도움이 되지만, 다양성이 "정책 모호성 (policy ambiguity)"을 유발할 정도로 높아지면 성능이 하락합니다. 또한 데이터가 증가하고 작업 숙련도가 높아짐에 따라 최적의 엔트로피는 더 낮은 값으로 이동합니다.

벨만 방정식의 역전: Q-값으로부터 월드 모델 읽어내기 (Inverting the Bellman Equation: Reading World Models Out of Q-Values) · world-model

모델 기반 (model-based) 강화학습 (RL)과 모델 프리 (model-free) 강화학습은 오랫동안 두 개의 별개 경로로 취급되어 왔습니다. 본 논문은 충분히 풍부한 보상 (rewards) 세트로 훈련된 가치 기반 (value-based) 에이전트가 고유하고 정확한 월드 모델 (world model)을 암묵적으로 인코딩한다는 것을 증명함으로써, 이 둘을 이론적으로 통합합니다.

Alistair Letcher et al. (incl. Jakob Foerster) · arXiv 2606.21173 https://arxiv.org/abs/2606.21173

저자들은 에이전트의 Q-값, 정책 (policy), 보상을 샘플링하여 에이전트의 내부 환경 모델을 디코딩하는 Q-러닝 (Q-learning)의 "역 연산"인 P-러닝 (P-learning)을 제안합니다. 또한 에이전트가 실제 전이 커널 (transition kernel) $P$를 인코딩할 수 있는 보상 유형 및 양에 대한 충분 조건 (sufficient conditions)을 도출합니다. 이는 가치 함수 (value function) 내부에 얼마나 많은 환경 지식이 숨겨져 있는가라는 질문에 대한 공식적인 해답을 제공합니다.

MAGNIFIED: 자율 주행 경로 계획을 위한 멀티모달 거대 모델의 강화학습 미세 조정 (MAGNIFIED: RL Fine-Tuning of Multimodal Large Models for Autonomous Driving Motion Planning) · autonomy

멀티모달 거대 모델 (Multimodal large models)은 의미론적 이해 (semantic understanding)에 탁월하지만, 사전 학습 (pretraining) 및 지도 미세 조정 (supervised fine-tuning)에서 사용되는 "다음 토큰 예측 (next-token prediction)"은 단어 단위의 텍스트 모방만을 장려합니다. 이는 종종 다단계 결과 (multi-step consequences)나 다른 도로 사용자를 위한 공간을 무시하여, 계획 목표 (planning objectives)와 어긋나게 됩니다.

Letian Chen et al. · arXiv 2606.20641 https://arxiv.org/abs/2606.20641

MAGNIFIED는 멀티모달 모델 (multimodal-model) 기반의 주행 결정을 토큰 수준의 모방 (token-level imitation)에 머물게 하는 대신, 계획 목표 (planning objectives)에 직접적으로 정렬시키는 강화학습 미세 조정 (RLFT, reinforcement learning fine-tuning) 체계를 제안합니다. 이를 통해 모델의 의도와 다단계 안전 결과 (multi-step safety outcomes)의 일관성을 더욱 높입니다.

Tactile Genesis: 숙련된 작업 학습을 위한 촉각 센서의 대규모 탐색 · 인지 (perception)

촉각 감지 (Tactile sensing)는 접촉이 빈번한 숙련된 조작 (contact-rich dexterous manipulation)에 필수적이지만, "정책이 실제로 어떤 촉각 추상화 (tactile abstraction)를 필요로 하는지, 그리고 언제 더 풍부한 촉각 필드 (tactile fields)가 하드웨어 비용을 정당화할 수 있는지"를 경험적으로 연구하는 것은 거의 불가능합니다. 센서를 교체하는 것은 로봇을 교체하는 것과 거의 맞먹는 작업이며, 어떤 실험실도 모든 센서에 대해 동일한 학습 실험을 재현할 수 없기 때문입니다.

Trinity Chung 외 · arXiv 2606.22332 https://arxiv.org/abs/2606.22332

이것은 GPU 병렬 촉각 센서 시뮬레이션 플랫폼으로, 통합된 인터페이스를 통해 이진 접촉 (binary contact), 접촉 깊이 (contact depth), 택셀별 힘/토크 (per-taxel force/torque), 엘라스토머 마커 변위 (elastomer marker displacement), 기하학적 근접성 (geometric proximity), 접촉 오디오 (contact audio), 그리고 복셀화된 온도 필드 (voxelized temperature field) (로봇 학습 물리 시뮬레이션 플랫폼 중 최초)를 제공합니다. 구성 가능한 레이아웃, 해상도, 그리고 드리프트 (drift) 및 히스테리시스 (hysteresis)를 포함한 현실적인 노이즈 모델을 갖추고 있어, "어떤 촉각 양상 (tactile modality)을 구축할 가치가 있는가"에 대한 체계적인 비교를 사상 처음으로 가능하게 합니다.

오늘의 다른 논문들: World Action Models: A Survey (HF↑33, 월드 모델 (world models), 비디오 생성 (video generation), 행동 기반 비디오 월드 모델 (action-grounded video world models), VLA, 그리고 "월드-액션 모델 (world-action models)" 사이의 경계를 명확히 하며 통합된 분류 체계 (taxonomy)를 제시함); MV-WAM (매니폴드 인식 월드-액션 모델 (manifold-aware world-action model) + 분포 외 조작 일반화 (out-of-distribution manipulation generalization) 개선을 위한 가치 증강 (value augmentation)); Wh0 (생성형 월드 모델을 사용하여 50,000개의 클립으로 구성된 1인칭 인간 손 조작 비디오 데이터셋 WM-H를 생성); Foresight (HF↑8, 장기 조작 실패 탐지 (long-horizon manipulation failure detection)를 위해 행동 조건부 월드 모델 잠재 변수 (action-conditioned world model latents)를 사용); 실제 하드웨어에 배포된 대규모 병렬 샘플링 MPC (JAX + MuJoCo MJX를 사용하여 Push-T가 장착된 Franka 로봇에서 real-sim-real 루프를 완성함); PolicyTrim (HF↑4, 단계별 지연 시간 (per-step latency) 감소를 넘어 VLA 고유의 정책 효율성 (intrinsic policy efficiency)을 개선); PoLAR (HF↑7, 잠재 행동 (latent actions)에 극좌표 반경-방향 (polar-coordinate radius-direction) 구조를 도입).

오픈 소스 · 도구 · 벤치마크

· R2HandoverSim: 로봇에서 인간으로의 물체 전달 (robot-to-human object handover)을 위한 시뮬레이션 벤치마크로, 30명을 대상으로 한 사용자 연구를 통해 4가지 베이스라인 (baselines)을 체계적으로 비교하고, 단일 성공률보다 사용자 인식을 더 잘 반영한다고 주장되는 5가지 보완적 지표 (도달 가능성 (reachability), 파지 안정성 (grasp stability), 안전성 (safety) 등)를 제안함. 코드 및 프로젝트 웹사이트 포함. arXiv 2606.21011 https://arxiv.org/abs/2606.21011

· LIBERO-Safety: VLA를 위한 포괄적인 물리적 및 의미적 안전성 평가 벤치마크. arXiv 2606.23686 https://arxiv.org/abs/2606.23686

· Humanoid-OmniOcc: Embodied AI를 위한 스테레오 전방위 점유 (stereo omnidirectional occupancy) 데이터셋. arXiv 2606.22971 https://arxiv.org/abs/2606.22971

· AutoDex: 자동화된 실제 환경의 숙련된 파지 (dexterous grasping) 데이터 수집 시스템. arXiv 2606.23689 https://arxiv.org/abs/2606.23689

II. 펀딩 및 거래

Kunlunxing Robotics ｜ 90일 만에 3라운드 투자 유치 ｜ 누적 수십억 위안 규모 ｜ 기업 가치 10억 달러 초과 · 휴머노이드 (humanoid)

전 Alibaba Group 부사장 및 Alibaba Cloud China 사장인 Ren Geng이 설립하고, 전 Li Auto 자율주행 책임자인 Lang Xianpeng이 공동 창업자로 참여한 이 회사는 2026년 3월 16일에 설립되었으며, 3번의 라운드를 거쳐 90일도 채 되지 않아 유니콘 (unicorn) 지위에 도달했습니다. 투자자로는 Gaorong Capital, Hillhouse Venture, CASSTAR, Zhongding Capital, Sinovation Ventures, Xin Capital, Jianfa Capital 등이 포함되며, 1라운드 투자자들은 후속 라운드에서 투자금을 두 배로 늘렸습니다. 이 회사는 Tesla Optimus를 벤치마킹하며 "하드웨어 본체 + AI 브레인"의 이중 트랙 전략을 추구합니다. 이는 올해 Embodied AI (체화된 인공지능) 분야에서 "스타 팀 + 일류 기관" 플레이북의 또 다른 극단적인 사례로, 0에서 1로 가는 속도 기록은 프라이머리 마켓 (primary markets, 발행 시장)의 FOMO (소외되는 것에 대한 두려움)를 새로운 고점으로 밀어 올리고 있습니다. 출처: 36Kr source

Momenta ｜ 홍콩 IPO (상장 심사 통과) ｜ 10억 달러 이상 목표 ｜ 기업 가치 1,000억 위안 초과 예상 · 자율주행 (autonomy)

FutureX · Physical AI Daily — Issue 37 (06/24)

요약

핵심 포인트

I. 연구 논문 (Research Papers)

오픈 소스 · 도구 · 벤치마크

II. 펀딩 및 거래

댓글