FutureX · Physical AI Daily — Issue 32 (06/19)
요약
Embodied AI 및 월드 모델 분야의 최신 투자 동향과 연구 논문을 다룹니다. Waymo의 리콜 이슈, 다양한 AI 스타트업의 대규모 펀딩 소식과 함께 로봇 조작을 위한 새로운 프레임워크 및 데이터 전환 연구를 소개합니다.
핵심 포인트
- Manifold AI, Odyssey 등 월드 모델 스타트업의 대규모 투자 유치
- Nvidia ENPIRE 프레임워크를 통한 AI 코딩 에이전트의 로봇 제어
- Guava: 범용 도구 호출 프레임워크를 통한 Embodied Manipulation 구현
- 인간 비디오를 숙련된 손 조작 데이터로 전환하는 연구 제안
오늘의 하이라이트
· Waymo는 자사의 5세대 자율주행 소프트웨어가 폐쇄된 고속도로 공사 구역에 진입할 수 있음이 발견됨에 따라, 3,871대의 로보택시(robotaxis)를 NHTSA에 리콜했습니다. 이 회사는 고속도로 운행을 중단하고 차량을 일반 도로로 우회시켰습니다.
· 월드 모델 (world models) 및 Embodied AI (Embodied AI) "두뇌"로 자본이 계속 유입되고 있습니다: 설립된 지 1년 된 중국의 월드 모델 스타트업 Manifold AI는 총 약 10억 위안 규모의 Pre-A 라운드를 통해 유니콘 지위에 도달했습니다. 같은 날 Yingsu와 미국 기반의 Odyssey ($310 million) 또한 라운드를 마감했습니다.
· Embodied AI 두뇌 펀딩 가속화: 중국의 Embodied AI 스타트업 Noematrix는 Wuxi Data Group이 주도하는 수억 위안 규모의 새로운 라운드를 확보했습니다. UCSD의 Bi-wei Huang 교수가 설립한 인과적 월드 모델 (causal world-model) 기업인 Aether AI는 Matrix Partners China가 주도하는 2,000만 달러 규모의 시드 라운드를 유치했습니다.
· Nvidia의 ENPIRE 프레임워크는 8개의 AI 코딩 에이전트가 로봇 함대를 자율적으로 제어할 수 있게 하여, 코드 작성과 훈련을 동시에 수행하며 GPU 설치와 같은 고정밀 작업에서 최대 99%의 성공률을 달성합니다.
· 배포 측면: Chengdu Humanoid Robot Innovation Center는 중앙 국영 기업들과 5,000대 규모의 조달 주문을 체결했습니다. UBTECH의 소비자용 휴머노이드 U1은 17일 만에 예약 주문 5,000대에 육박했습니다.
I. 연구 논문 (Research Papers)
Guava: Embodied Manipulation을 위한 범용 "도구 호출 (Tool-Calling)" 프레임워크 · vla
End-to-end VLA (VLAs)의 대안: 강력한 멀티모달 거대 언어 모델 (multimodal large language model)을 "사령관 (commander)"로 취급하고 외부 인지, 계획 및 제어 모듈을 부착합니다. 이는 범용 추론 모델이 진정으로 조작 (manipulation) 능력을 갖추기 위해 어떤 스캐폴딩 (scaffolding)이 필요한지를 체계적으로 다룹니다. 커뮤니티에서 당일 가장 많이 논의된 논문입니다.
Haowen Liu 외 · arXiv 2606.18363 source
저자들은 에이전트 워크플로우 (agent workflow), 액션 공간 (action space), 관측 공간 (observation space)의 세 가지 차원에 걸쳐 설계 공간 (design space)을 체계적으로 탐색하며, 효과적인 Embodied Agent (체화된 에이전트)를 위한 세 가지 핵심 요소(반복적 추론 (iterative reasoning), 적절한 액션 추상화 (appropriate action abstraction), 구조화된 관측 (structured observations))를 추출해냈습니다. 이를 통해 별도의 개별 체화 (per-embodiment) 엔드투엔드 (end-to-end) 정책 학습 없이도 다양한 추론 모델 전반에서 조작 (manipulation) 능력을 끌어낼 수 있음을 입증했습니다. 커뮤니티 관심도: HF↑22.
Do as I Do: 일상적인 인간 비디오를 숙련된 손 조작 데이터로 전환하기 · manipulation
부족한 숙련된 손 (dexterous-hand) 데이터는 대규모 조작 (manipulation)의 병목 현상입니다. 본 논문은 대량의 단안 RGB (monocular RGB) 인간 비디오를 직접 활용할 것을 제안하며, 두 가지 장애물인 손-물체 상호작용 추정 (hand-object interaction estimation)과 인간의 손과 로봇 말단 장치 (robot end-effectors) 사이의 형태학적 차이 (morphological gap)를 극복합니다. 공동 저자에는 Pieter Abbeel과 Mahi Shafiullah가 포함되어 있으며, 이는 주목할 만한 경로입니다.
Bhawna Paliwal 외 (UC Berkeley / NYU 등) · arXiv 2606.19333 source · Commentary: 超智前夜 source (WeChat, CN)
DO AS I DO는 야생 (in-the-wild) 환경의 1인칭 및 3인칭 비디오로부터 손-물체 상호작용을 재구성한 다음, 해당 상호작용 추정치를 다지구 로봇 숙련된 손 (multi-fingered robot dexterous hands)으로 리타겟팅 (retargeting)하여 실행 가능한 조작 궤적 (manipulation trajectories)을 생성합니다. 이는 인터넷 규모의 인간 조작 비디오를 학습 가능한 데이터로 변환하고 실제 로봇 데이터 수집 비용을 절감합니다.
HALOMI: 인간의 시연으로부터 휴머노이드 이동-조작 (Loco-Manipulation)을 위한 능동적 지각 학습 · locomotion
인간의 시연(Human demonstrations)은 대규모로 수집하기 쉽고 수기-안구 협응(hand-eye coordination)을 자연스럽게 인코딩하지만, 휴머노이드로의 직접적인 전이는 취약한 세계 좌표계 추적 컨트롤러(world-frame tracking controllers)를 필요로 합니다. 본 논문은 능동적 지각(active perception)을 통해 "어디를 볼 것인가, 어디로 걸을 것인가, 어디를 잡을 것인가"를 통합하며, 전신 모바일 조작(whole-body mobile manipulation)을 위한 확장 가능한 데이터 소스를 목표로 합니다.
Zehui Zhao et al. · arXiv 2606.18772 source
HALOMI는 Universal Manipulation Interface (UMI)를 1인칭 지각(first-person perception)으로 확장하여, 머리-손 궤적(head-hand trajectories)과 함께 1인칭 시점(ego-view) 및 손목 시점(wrist-view) 관측치를 대규모로 수집하며, 인간과 휴머노이드의 1인칭 관측 및 동작 실행 간의 분포 변화(distribution shift)를 완화하기 위한 매니폴드 제약(manifold-constrained) 접근 방식을 제안합니다. 이를 통해 분포 외(out-of-distribution) 타겟에 대한 강건성(robustness)을 향상시킵니다.
PAIWorld: 조작을 위한 3D 일관성을 갖춘 세계 기초 모델 (A 3D-Consistent World Foundation Model for Manipulation) · world-model
대부분의 기존 세계 기초 모델(world foundation models)은 단일 시점(single-view)이며 로봇 조작에 필요한 다중 시점 3D 일관성(multi-view 3D consistency)이 부족합니다. 시점 토큰(view tokens)을 단순히 연결하면 시점 간 드리프트(cross-view drift), 깊이 불일치(depth inconsistency), 텍스처 정렬 불량(texture misalignment)이 발생합니다. 본 논문은 이 문제의 원인을 명시적인 시점 간 통신(cross-view communication)과 3D 기하학적 사전 정보(3D geometric priors)의 부재로 규정하고, 이 두 가지를 동시에 해결합니다.
Yuhang Huang et al. · arXiv 2606.18375 source
PAIWorld는 확산 트랜스포머(diffusion Transformer) 세계 모델에 명시적인 시점 간 정보 교환과 3D 기하학적 사전 정보를 도입합니다. 이는 로봇 공학에서 흔히 사용되는 1인칭(egocentric), 아이-투-핸드(eye-to-hand), 손목 카메라(wrist-camera) 다중 시점 설정을 대상으로 하여 시점 간 객체 일관성(cross-view object consistency)과 깊이 정렬(depth alignment)을 복구합니다. 커뮤니티 견인력(Community traction): HF↑3.
DREAM-Chunk: 잠재 세계 모델을 통한 액션 청크(Action Chunks)에 "반응성(Reactivity)" 추가하기 · vla
액션 청킹 (Action chunking)은 이제 표준적인 VLA 인터페이스가 되었지만, 일단 청크가 결정되면 확률적 역학 (stochastic dynamics), 하드웨어 오류, 그리고 부분 관측 가능성 (partial observability) 하에서 오픈 루프 (open-loop) 실행은 취약해집니다. 이 논문은 정책 미세 조정 (policy fine-tuning)을 요구하지 않고 테스트 시간 연산 (test-time compute)을 사용하여 강건성 (robustness)을 확보합니다.
Wenxi Chen et al. · arXiv 2606.18589 source
DREAM-Chunk은 청크 기반 정책에 경량 잠재 세계 모델 (latent world model)을 부착합니다. 테스트 시점에 여러 후보 청크를 샘플링하고, 각 청크를 잠재 공간 (latent space)에서 롤아웃 (rollout)하여 미래를 예측한 다음, 예측된 상태가 실제 롤아웃과 가장 잘 일치하는 청크를 선택합니다. 즉, 추가적인 추론 연산 (inference compute)을 사용하여 가능한 미래의 범위를 커버합니다.
MolmoMotion: 언어 조건부 3D 포인트 궤적 예측 (Language-Conditioned 3D Point Trajectory Prediction) · world-model
"객체가 어떻게 움직이는가"를 세계 좌표계에서의 3D 포인트 궤적 예측 (3D point trajectory prediction)으로 공식화합니다. 이는 카테고리에 구애받지 않고 (category-agnostic), 시점 변화에 안정적이며 (view-stable), 압축적이고, 다운스트림 계획 (downstream planning)에 직접적으로 유용합니다. 이와 함께 백만 단위 규모의 데이터 코퍼스도 공개되었습니다.
Jianing Zhang et al. · arXiv 2606.18558 source
짧은 시각적 이력 (visual history), 객체 상의 3D 쿼리 포인트 (query points) 세트, 그리고 자연어 목표 설명이 주어지면, 모델은 각 포인트의 미래 3D 궤적을 예측합니다. 저자들은 MolmoMotion-1M을 공개했습니다. 이는 116만 개의 제약 없는 비디오에서 액션 설명과 객체 앵커 (object anchors)를 통해 주석을 단 대규모 3D 포인트 궤적 코퍼스로, 이 작업을 위한 완전한 기술 스택을 형성합니다. 커뮤니티 반응: HF↑5.
Act2Answer: VLA 미세 조정 시 상식과 세계 지식은 얼마나 살아남는가? · benchmark
VLA는 일반적으로 강력한 VLM을 로봇 데이터로 미세 조정 (fine-tuned)하지만, 적응 과정에서 상식과 사실적 지식이 얼마나 유지되는지는 불분명한 상태로 남아 있었습니다. 지식 손실 (knowledge loss)과 저수준 제어 일반화 (low-level control generalization)의 부족은 서로 혼동되는 경향이 있습니다. 이 논문은 분리된 측정 프로토콜 (decoupled measurement protocol)을 제공합니다.
Nikita Kachaev et al. · arXiv 2606.19297 source
Act2Answer는 VLM (Vision-Language Model) 지식 벤치마크를 "행동을 통한 답변" 형식으로 재구성합니다. 각 질문은 에이전트가 단일 객체 배치 동작(object-placement action)을 통해 후보 답변 중 하나를 선택하는 테이블탑 에피소드(tabletop episode)가 되며, 이를 통해 제어 혼란(control-confound)이 감소된 행동 기반(action-grounded) 성공률을 산출합니다. 이는 다양한 상식 및 세상 지식(world-knowledge) 시나리오 전반에서 VLA (Vision-Language-Action) 모델을 평가하는 데 사용됩니다.
오늘의 다른 논문들: VEGA (기하학적 궤적 감독(geometric trajectory supervision)을 활용하여 야생(in-the-wild)의 1인칭 내비게이션 비디오로부터 내비게이션 VLA를 학습); Motion-Focused Latent Action (인간의 1인칭 비디오로부터 교차 체형(cross-embodiment) VLA 사전 학습을 위해 배경에서 동작을 분리); Mem-World (조작 과정에서의 폐쇄(occlusion) 및 드리프트(drift)로 인해 발생하는 "망각/환각" 문제를 해결하는 메모리 증강 동작 조건부 월드 모델 (memory-augmented action-conditioned world model)); DCGWM (이중 물리 및 사회적 신호 하의 JEPA 월드 모델에서 "목표 간섭 붕괴(goal-interference collapse)"를 식별하고, 분할된 잠재 공간(partitioned latent spaces)을 사용하여 이를 구조적으로 방지); Object-Centric Residual RL (제로샷 심투리얼(sim-to-real) 전이를 위해 객체 포즈를 사용하는 VLA 잔차 증강 (VLA residual augmentation)).
오픈 소스 · 도구 · 벤치마크
· HT-Bench: 숙련된 전손(whole-hand) 촉각 감지를 위한 대규모 멀티태스크 벤치마크로, 226개 작업에 걸쳐 1,000만 개의 RGB 프레임과 780만 개의 촉각 프레임으로 구성되며, 접촉 기하학 인코딩(contact geometry encoding), 시각-촉각 정렬(visuo-tactile alignment), 그리고 미학습 작업에 대한 일반화 성능을 바탕으로 촉각 표현을 평가합니다.
· ROBOSHACKLES: 체화된 파운데이션 모델(embodied foundation models)에 의한 신체적 부상을 방지하기 위한 안전 데이터셋입니다. 실제 로봇으로 인한 부상 데이터는 법적으로 수집할 수 없기 때문에, 저자들은 DROID 관측치에서 시작하여 장면 이해(scene understanding), 위험 인지 이미지 편집(hazard-aware image editing), 그리고 시간적 프롬프팅(temporal prompting)을 사용하여 비디오 모델을 통해 안전 정렬(safety alignment)을 위한 현실적인 위험 롤아웃(dangerous rollouts)을 합성합니다.
· SC3-Eval: 자기 일관적(self-consistent) 비디오 생성을 사용하여 사전 학습된 비디오 파운데이션 모델(video foundation models)을 로봇 정책 평가기(robot policy evaluators)로 재용도화합니다. 순방향/역방향 역학 일관성(forward/inverse dynamics consistency) 및 다중 뷰 일관성(multi-view consistency)과 같은 제약 조건을 통해 자기회귀 롤아웃(autoregressive rollouts)에서의 오류 누적을 억제합니다 (공동 저자: Allen Z. Ren, Lucy X. Shi).
· Physics-IQ Verified: 비디오 생성 모델의 물리적 이해도를 측정하는 Physics-IQ 벤치마크에 대한 체계적인 감사로, 해당 벤치마크의 단점을 식별하고 더 정확한 측정을 위한 세 가지 개선 사항을 제안합니다 (공동 저자: Yuki M. Asano, Stefan Bauer).
II. 자금 조달 및 거래 (Funding & Deals)
Manifold AI (중국 월드 모델 스타트업) | Pre-A | 누적 약 ¥10억 (약 1900억 원) | 1년 만에 유니콘 등극 · 월드 모델 (world-model)
이번 라운드는 Guoxin Fund (China Reform Holdings 산하), Yifeng Capital (Temasek 계열사), BAIC Industrial Investment, Xinneng Ventures의 지원을 받았으며, 기존 주주 4곳 모두가 지분을 확대했습니다. 이 회사는 2025년 5월 말에 설립되어 1년 만에 6번의 라운드를 완료했으며, 누적 Pre-A 단계에서 약 10억 위안에 도달하며 월드 모델 분야의 유니콘 반열에 올랐습니다. 자체 개발한 WorldScape 및 WorldScape Policy 모델은 WorldScore, WorldArena, RoboTwin에서 최상위 순위를 기록하고 있으며, 이 회사는 월드 모델을 실외, 실내 및 항공 영역을 아우르는 체화된 사전 학습(embodied pre-training) 기반으로 포지셔닝하고 있습니다. 설립자이자 CEO인 Wu Wei는 전 SenseTime 임원이며 Waymo SimAgents Challenge에서 2회 연속 우승한 경력이 있습니다. 출처: 机器人前瞻 source (WeChat, CN), 复星锐正 source (WeChat, CN)
Noematrix (중국 기반 체화형 AI 스타트업) | 신규 투자 유치 | 수억 위안 · embodied
Wuxi Data Group이 주도하고, Shanghai Institute for Advanced Study의 완전 자회사인 SJTU AI Future Fund와 Yicun Capital 등이 참여했습니다. 이 회사는 2023년 말 상하이 자오퉁 대학교(Shanghai Jiao Tong University) 출신의 Ce Wu 교수 팀에 의해 설립되었으며, 'Noematrix Embodied Brain' 제품을 통해 명령어 이해부터 실행 피드백까지의 결정 루프를 힘-위치 하이브리드 후처리 학습(force-position hybrid post-training)을 거쳐 자체 개발한 범용 체화형 대규모 모델 접근 방식을 추구하고 있습니다. 이 회사는 이전에도 Sequoia China, Alibaba, Prosperity7, Sea로부터 투자를 받았으며, 1년 만에 세 차례의 투자 라운드를 완료했습니다. 출처: 硬氪 출처 (WeChat, CN)
Aether AI | 시드 라운드 | 2천만 달러 (~1억 3,500만 위안) · world-model
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기