본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 18. 00:06

FutureX · Physical AI Daily — Issue 31 (06/18)

요약

로보택시 시장의 글로벌 확장 소식과 함께, Faraday Future의 로보틱스 라인업 공개 및 중국 월드 모델 스타트업 Physis의 대규모 투자 유치 소식을 다룹니다. 또한 Alibaba의 Qwen-Robot 기술 보고서와 VLA 학습을 위한 ACE-Ego-0 오픈 소스 연구를 소개합니다.

핵심 포인트

  • WeRide, Uber, Stellantis 등 글로벌 기업 간 로보택시 협력 가속화
  • Physis 등 중국 월드 모델 및 체화된 AI(Embodied AI) 분야 투자 급증
  • ACE-Ego-0: 인간 1인칭 비디오를 활용한 VLA 사전 학습 프레임워크 공개
  • Alibaba의 Qwen-Robot 및 실시간 상호작용 월드 모델 출시

오늘의 주요 하이라이트

· Robotaxi(로보택시) 글로벌 확장이 하루 만에 세 가지 측면에서 진전되었습니다: WeRide × Uber가 취리히에서 출시되었습니다 (마드리드 이후 2주 만에 유럽의 두 번째 도시); Stellantis × Wayve × Uber가 글로벌 L4 로보택시 협력을 위한 MoU(양해각서)를 체결했습니다; Uber × Lucid × Nuro는 2027년 중반을 목표로 휴스턴을 다음 도시로 지정했습니다.

· Faraday Future(중국 EV 기업가 Jia Yueting이 관리)가 $1,990의 FX Navi 교육용 로봇과 새로운 Futurist 휴머노이드를 포함하여, 가정 및 K–12 교육 생태계를 겨냥한 6개 시리즈의 "풀폼(full-form)" Embodied Robotics(체화된 로보틱스) 라인업을 공개했습니다; 이 소식에 FFAI 주가가 상승했습니다.

· World Models(월드 모델)가 계속해서 자본을 끌어들이고 제품을 출시하고 있습니다: 베이징 대학교 기업가 Chen Boyuan(2004년생)이 설립한 Physis(逆矩阵, 중국 월드 모델 스타트업)가 Matrix Partners China, Wuyuan Capital, BAI Capital, Ant Group의 전략적 투자가 참여한 가운데 1억 달러(USD)를 초과하는 Seed++ 라운드를 마감했습니다; 같은 날, Alibaba는 실시간 상호작용 월드 모델인 "HappyOyster 1.0"을 출시했으며, AutoNavi는 DreamX-World 1.0을 출시했습니다.

· Mifeng Technology(觅蜂科技, Zhiyuan Robotics에서 분사된 Physical AI 데이터 플랫폼)가 Guofang Capital이 주도하는 억 단위 RMB 규모의 Angel+ 라운드를 추가로 유치하며, "데이터가 차별화 요소이다"라는 논리에 기반한 독립 인큐베이션 전략을 이어가고 있습니다; OFweek에 따르면, 1월부터 5월까지 중국의 누적 Embodied-AI(체화된 AI) 투자액은 약 966억 RMB에 달했습니다.

· 연구 측면에서는: Alibaba가 Qwen-Robot 기술 보고서(RobotManip / RobotNav)를 공개했습니다; ACE-Ego-0는 VLA(Vision-Language-Action) 사전 학습을 위해 인간과 로봇의 Egocentric(1인칭 시점) 데이터를 통합하고 모델을 오픈 소스로 공개했습니다(HF↑39).

I. Research

ACE-Ego-0: VLA 사전 학습을 위한 인간 Egocentric 비디오와 로봇 궤적의 통합 · vla

VLA (Vision-Language-Action) 학습은 비용이 많이 들고 희소한 실제 로봇 궤적 (real-robot trajectories) 문제로 어려움을 겪는 반면, 인터넷 규모의 1인칭 인간 비디오는 즉시 사용 가능한 "보충적 감독 (supplementary supervision)"을 제공합니다. 본 연구의 기여점은 액션 공간 (action space), 체화 구조 (embodiment structure), 시간적 역학 (temporal dynamics) 및 주석 품질 (annotation quality)이 서로 다른 두 가지 이질적인 데이터 유형을 별도로 학습하는 대신, 단일 사전 학습 (pre-training) 프레임워크로 진정하게 결합했다는 점이며, 논문과 함께 오픈 소스 공개도 함께 이루어졌습니다.

Hao Li et al. (ACE Robotics × CUHK) · arXiv 2606.17200 source · HF↑39

연구팀은 가공되지 않은 인간 비디오를 로봇 형식의 의사 액션 궤적 (pseudo-action trajectories)으로 변환하는 확장 가능한 "1인칭 비디오 → 액션 (egocentric video → action)" 파이프라인을 구축합니다. 그런 다음 통합된 표현 (unified representations)을 사용하여 인간과 로봇 데이터 모두의 액션 레이블을 공동 사전 학습을 위해 비교 가능한 규모로 정렬합니다. 동반 오픈 소스 모델인 ACE-Ego는 같은 날 ACE Robotics와 CUHK에 의해 공동으로 공개되었습니다.

Alibaba Qwen-Robot 기술 보고서: "정렬 (Alignment)"을 사용하여 확장 가능한 로봇 파운데이션 모델 (Robot Foundation Models)의 잠재력을 깨우기 · vla

어제의 Tongyi "손-발-뇌" 3종 출시(triple release)에 이어, Alibaba는 이제 방법론적 세부 사항을 채워 넣고 있습니다. 핵심 논지는 다음과 같습니다: 조작 (manipulation) 데이터는 본질적으로 이질적이고, 수집 비용이 높으며, 다양성이 제한적입니다. 단순히 데이터를 쌓는 것은 충돌을 일으킵니다. 표현 (representation), 동작 (motion), 그리고 행동 (behavior) 전반에 걸친 정렬이 다중 소스 대규모 학습 이전에 반드시 선행되어야 하며, 그래야만 학습이 "상쇄하기보다는 더해지는 (adds rather than cancels)" 효과를 낼 수 있습니다. 이는 언어 및 멀티모달 파운데이션 모델 (multimodal foundation models)의 공식이 로보틱스로 전이될 수 있는지에 대한 핵심 시험대입니다.

Haoqi Yuan et al. (Alibaba Tongyi) · arXiv 2606.17846 source (RobotManip) / 2606.18112 (RobotNav) · Commentary: Feynman Bits source (WeChat, CN)

Qwen-VL을 기반으로 구축된 RobotManip은 표현 (representation), 동작 (motion), 행동 (behavior)의 세 가지 차원에 걸친 통합 정렬 프레임워크를 제안하여, 다중 소스 조작 데이터 (multi-source manipulation data)가 상호 간섭 없이 공동 학습될 수 있도록 합니다. RobotNav는 "에이전트 스타일 내비게이션 시스템"을 목표로 하며, 추론 시점에 관찰 전략을 외부에서 재구성할 수 있는 확장 가능한 내비게이션 백본 (backbone)을 제공합니다. 즉, 지시 따르기 (instruction following), 객체 탐색 (object search), 객체 추적 (object tracking), 자율 주행 (autonomous driving)이 모두 동일한 인지-계획 (perception-planning) 백본을 공유하지만, 시각 스트림 (visual streams)을 다르게 소비합니다. 강건성 (robustness)은 학습 과정에서 작업 모드와 관찰 파라미터 (토큰 예산, 카메라별 가중치)를 무작위화함으로써 달성됩니다. WeChat의 분석에 따르면, Qwen-VLA는 실질적으로 약 5B 규모의 통합 가중치 (unified-weight) 모델입니다. 이는 대략 4B 규모의 Qwen3 VL 백본에 약 1.15B 규모의 DiT 플로우 매칭 (flow-matching) 액션 디코더 (action decoder)가 결합된 형태입니다.

MuseVLA: VLA에 온디맨드 멀티모달 센싱 장착하기 · vla

대부분의 VLA는 RGB만을 소비하며, RGB가 포착할 수 없는 물리량 — 온도, 소리, 레이더 응답 — 에 대해서는 인지하지 못합니다. 본 논문은 "어떤 센서를 활성화하고 무엇에 주의를 기울일 것인가"에 대한 선택을 도구 호출 (tool-call)과 유사한 행동으로 모델링하여, 모델이 스스로 "제3의 눈을 뜰" 시점을 결정하게 합니다. 이 접근 방식은 센서를 무분별하게 쌓아 올리는 것보다 더 확장 가능합니다.

Xingyuming Liu 외 (Peking University / Microsoft 등) · arXiv 2606.17598 source · 논평: 비-체화된 비-지능적 source (WeChat, CN)

작업 지침(task instruction)과 시각적 문맥(visual context)이 주어지면, MuseVLA는 먼저 어떤 감지 양식(sensing modality)을 호출하고 무엇에 집중할지를 결정하는 '센서 토큰 + 대상 설명(sensor token + target description)' — 매개변수화된 도구 호출(parameterized tool call)과 동일한 것 — 을 생성합니다. 그다음 선택된 센서의 측정값이 통일된 중간 단계인 '센서 이미지(sensor image)'로 변환되어 정책(policy)으로 다시 피드백됩니다. 이는 적외선, 오디오, 레이더 및 기타 양식들을 RGB를 넘어 언어에 따라 조건화될 수 있는 온디맨드(on-demand) 입력으로서 조작 루프(manipulation loop)에 효과적으로 연결합니다.

EgoInfinity: 로봇 학습을 위해 임의의 웹 비디오를 4D 손-물체 상호작용 데이터로 자동 변환 · manipulation

인터넷 비디오는 인간의 조작 지식에 대한 가장 큰 '저장소(reservoir)'이지만, 임의의 RGB 클립을 학습 가능한 로봇 데이터로 전환하는 것은 지속적인 병목 현상이었습니다. EgoInfinity는 단순한 정적 데이터셋이 아닙니다. 이는 데이터를 생성하기 위해 지속적으로 작동하는 '엔진(engine)'이며, 데이터 부족으로 인해 오랫동안 병목을 겪어온 오픈 월드 조작 학습(open-world manipulation learning)에 있어 더 높은 레버리지(higher-leverage)를 제공하는 기여입니다.

Gaotian Wang 외 · arXiv 2606.17385 source

EgoInfinity는 인지(perception), 세그멘테이션(segmentation), 재구성(reconstruction), 상호작용 인식 정밀화(interaction-aware refinement), 그리고 리타겟팅(retargeting)을 체인 형태로 연결하는 모듈형 4D 손-물체 상호작용 데이터 엔진으로, 인간의 개입(human-in-the-loop) 없이도 웹 비디오를 '임의 시점 로봇 리타겟팅 + 비디오-투-액션(video-to-action)' 학습 데이터로 변환합니다. 또한 모듈형 설계 덕분에 상위 컴포넌트 모델(component models)의 발전에 따라 지속적으로 이점을 얻을 수 있습니다.

Flow 기반 VLA를 위한 불확실성 정량화: 정책이 언제 틀릴 수 있는지 알도록 가르치기 · vla

Flow matching으로 학습된 VLA 액션 헤드(action heads)는 강력한 성능을 발휘하지만, "이 단계에 대해 확신이 없습니다"라고 표현할 수 있는 메커니즘이 거의 없습니다. 사전 학습 분포(pre-training distribution)를 벗어난 비정상 상태(non-stationary) 환경에서는 모델이 경고 없이 실패할 수 있습니다. 본 논문은 배포 가능한 수준의 실패 예측 방법론을 제공합니다.

Ralf Römer et al. · arXiv 2606.18043 source

저자들은 인식론적 불확실성 (epistemic uncertainty)을 추정하기 위한 효율적인 방법을 도출했습니다. 이는 소규모 앙상블 (ensemble) 전반에 걸쳐 속도장 불일치 (velocity-field disagreement, VFD)를 측정하고, 이를 실패 탐지 및 신뢰할 수 없는 행동 식별에 사용하는 방식입니다. Flow 모델에 무거운 베이지안 헤드 (Bayesian head)를 추가하는 것과 비교했을 때, VFD는 계산 오버헤드가 낮으며 "이 행동 단계를 신뢰해야 하는가?"를 판단하는 게이트 (gate)로서 실시간 제어 루프 (real-time control loops)에 적합합니다.

Looped World Models: Parameter-Shared Recurrent Transformers that Shrink World Models by 100× · world-model

월드 모델 (world models)은 근본적인 긴장 상태에 직면해 있습니다. 충실한 장기 시뮬레이션 (long-horizon simulation)을 위해서는 깊은 연산이 필요하지만, 모델이 깊어질수록 배포 비용이 비싸지고 오차 누적 (error accumulation)이 발생하기 쉽습니다. LoopWM은 "반복적 잠재 깊이 (iterative latent depth)"를 "더 큰 모델 구축 / 더 많은 데이터 추가"와 직교하는 새로운 스케일링 축 (scaling axis)으로 취급할 것을 제안하며, 이는 주목할 만한 월드 모델링의 패러다임적 선택지입니다.

Hongyuan Adam Lu et al. · arXiv 2606.18208 source · HF↑5 · Commentary: AI Miaomaofang source (WeChat, CN)

LoopWM은 월드 모델링을 위한 최초의 순환 구조 (recurrent architecture)입니다. 단일한 파라미터 공유 Transformer 블록이 잠재 환경 상태 (latent environment states)를 반복적으로 정교화하며, 각 예측 단계의 복잡성에 따라 "연산 깊이 (computational depth)"를 적응적으로 확장합니다. 보고에 따르면 동일한 품질 대비 기존 방식보다 최대 약 100배의 파라미터 효율성을 달성했으며, 스펙트럼 제약 (spectral constraints)을 통해 임의의 롤아웃 (rollout) 길이 전반에 걸쳐 안정성을 보장합니다.

EBench: Beyond Success Rate — Diagnostic Evaluation for General Mobile Manipulation Policies · benchmark

단일한 성공률 (success-rate) 스칼라 값은 정책 (policy)의 진정한 역량 프로필을 가립니다. EBench는 평가를 역량 (capability)과 일반화 (generalization)라는 두 가지 차원 그룹에 따라 분해하며, 여러 선도적인 범용 정책들을 공통된 척도로 벤치마킹하여, 접근 방식 사이에서 고민하는 실무자들에게 실질적인 가치를 제공합니다.

Ning Gao et al. · arXiv 2606.18239 source

EBench는 5가지 역량 차원과 4가지 일반화 차원에 걸쳐 주석이 달린 26개의 다양하고 도전적인 조작 (manipulation) 태스크를 포함하며, π₀, π₀.₅, XVLA, 그리고 InternVLA-A1을 포함한 모델들을 평가합니다. 주요 발견 사항: 유사한 성공률을 가진 모델이라도 역량 프로필은 극적으로 다를 수 있습니다. π₀.₅는 테스트 성공률 (test success rate)과 학습-테스트 유지력 (train-test retention)에서 앞서며, InternVLA-A1은 모바일 조작 (mobile manipulation)에서는 앞서지만 정교한 작업 (dexterous tasks)에서는 성능이 무너집니다. XVLA의 강력한 원자적 기술 (atomic-skill) 세트는 다른 모델들과 거의 겹치지 않습니다.

DexLink Hand: 320g 및 400달러 미만의 16-DOF 링크 구동형 정교한 손 · manipulation

정교함 (dexterity), 소형화 (compactness), 그리고 저렴한 가격 (affordability)은 오랫동안 상호 배타적이었습니다. 높은 자유도 (DOF)는 일반적으로 인간의 손 형태 안에 맞추기 어려운 복잡한 구동 (actuation) 및 전달 (transmission)을 의미하기 때문입니다. 이 손은 대량 생산에 적합한 폼 팩터를 갖추면서도 비용을 수백 달러 초반대로 낮추었으며, 이는 정교한 조작 데이터 수집 및 확장된 연구를 위한 진정한 도구 제작의 이점 (tooling dividend)을 나타냅니다.

Hao Wu et al. · arXiv 2606.17418 source

DexLink Hand는 인간의 손 크기 구조 내에 20개의 관절과 16개의 독립적인 액추에이터 (actuators)를 통합하며, 모든 구동, 감지 (sensing) 및 전달 구성 요소가 완전히 내장되어 있습니다. 이는 하이브리드 평면 및 공간 링크 메커니즘 (hybrid planar-and-spatial linkage mechanism)을 사용하며, 무게는 약 320g이고 총 비용은 400달러 미만으로, 높은 구조적 통합성과 저렴한 가격을 통해 인간 수준의 정교함을 목표로 합니다.

오늘의 다른 논문들: CAIP (1인칭 시점 비디오에서 인간의 제스처를 말단 장치(end-effector) 동작 프록시로 추출하는 대조적 시각 사전 학습 (contrastive visual pre-training)); ThinkingVLA (시각-언어 추론이 교차되며, 예측과 역역학(inverse dynamics)을 위한 통합 자기회귀 구조 (unified autoregressive architecture)를 갖춘 모델); PearlVLA ("심층 사고(deep thinking)"를 VLM 잠재 공간(latent space)으로 재배치하여, 저지연 제어와 명시적 계획 사이의 균형을 맞춘 모델); WAM-RL (세계-행동 모델(world-action model)을 활용하여 세계 모델과 정책을 함께 진화시키는 온라인 상호작용 강화학습 (online interactive reinforcement learning)); OmniDrive / DRIVE-CHOREO (LLM이 조율하는 멀티 에이전트 주행 세계 모델 및 다중 뷰 제어 가능 비디오 생성); VERITAS (추론 시점에 일반 정책을 가이드하고 스스로 개선하는 생성기-시각-검증기 (generator-visual-verifier) 프레임워크); HumanoidArena (고수준 정책과 저수준 모션 트래커(motion tracker) 사이의 인터페이스를 테스트하는 1인칭 계층적 전신 학습 벤치마크 (egocentric hierarchical whole-body learning benchmark)); Damage Adaptation in Seconds (치명적인 손상에 대해 1분 이내에 스스로 적응하는 소프트/메타물질 로봇).

오픈 소스 · 도구 · 벤치마크

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0