FutureX · Physical AI Daily — Issue 34 (06/21)
요약
현대자동차의 Boston Dynamics 인수 완료와 DaxAI Robotics의 대규모 펀딩 소식을 포함한 로보틱스 및 AI 산업 동향을 다룹니다. 또한 비디오 확산 모델 기반의 3D 연구와 자율주행 시뮬레이션 시스템 등 최신 기술 연구 성과를 함께 전달합니다.
핵심 포인트
- 현대자동차, Boston Dynamics 지분 전량 인수 완료
- DaxAI Robotics, 설립 첫해 4차례 펀딩 및 높은 주문량 기록
- Wan2.2 기반의 3D 자체 주의 메커니즘 분해 연구
- 충돌률을 45.5% 감소시킨 자율주행 시뮬레이션 시스템 성과
오늘의 주요 뉴스
· 현대자동차(Hyundai Motor)가 Boston Dynamics의 지분 전량 인수를 완료했습니다 (SoftBank는 약 3억 2,500만 달러에 엑시트). 양산형 Atlas는 2028년 현대자동차의 미국 공장에 투입될 예정이며, 연간 생산 능력은 30,000대로 계획되어 있습니다.
· DaxAI Robotics (중국의 Embodied-AI 스타트업)가 설립 첫해에 4차례의 펀딩 라운드를 마감했습니다. Jiangsha Capital (중국의 초기 단계 VC)이 Pre-A 라운드를 주도했습니다. 이 회사는 상반기 주문량이 3억 위안을 초과했다고 보고했으며, 수천 대의 배치를 추진 중입니다.
Gao Lin (Chinese Academy of Sciences / Cardiff University / HKUST / Kuaishou Kling)이 팀을 이끌었습니다 · SIGGRAPH 2026에서 채택됨 · 커버리지: Jiqizhixin 출처 (WeChat, CN)
이 방법은 Wan2.2 비디오 확산 모델(video diffusion model)을 기반으로 하며, 원래의 3D 자체 주의 메커니즘(self-attention)을 콘텐츠 주의 모듈(Content-Attention module, 콘텐츠 참조 처리)과 카메라 주의 모듈(Camera-Attention module, PRoPE를 통한 카메라 내부 및 외부 파라미터 인코딩)로 분해합니다. 그런 다음
Li Hongyang 팀(홍콩 대학교 / Huawei / 상하이 인공지능 연구소 / Tsinghua의 Li Shengbo) · 커버리지: Quantum Bit 출처 (WeChat, CN)
이 시스템은 세 가지 구성 요소로 이루어져 있습니다: SimEngine은 3D Gaussian Splatting(깊이 및 법선 감독(depth and normal supervision), LiDAR 노출 정렬, 카메라별 색상 보정 포함)을 사용하여 멀티패스 로그로부터 재렌더링 가능하고 상호작용 가능한 시뮬레이션 세계를 재구성합니다; Behaviour World Model은 확산 모델(diffusion model)을 사용하여 알려진 실패 사례로부터 유사한 난도 높은 시나리오 세트로 일반화합니다(예: 선행 차량 감속 → 차선 변경 추월); 사후 학습(post-training) 단계에서는 충돌 회피, 주행 가능 영역, 교통 효율성 및 승차감을 포괄하는 보상을 포함하는 행동 규제 강화학습(behaviour-regularized reinforcement learning)을 적용하며, 치명적 망각(catastrophic forgetting)을 방지하기 위해 사전 학습된 정책에 대한 KL 규제(KL regularization)를 병행합니다. 폐쇄 루프 시뮬레이션(closed-loop simulation) 평가에서, 200km의 제로 테이크오버(zero takeovers)를 달성하며 충돌률이 약 45.5% 감소했습니다.
ERVLA: Embodied Chain-of-Thought는 "장황함"이 아닌 "정확함"을 갖춰야 한다 · vla
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 VLM으로부터 대규모 시각-의미론적 사전 지식(visual-semantic priors)을 상속받지만, 더 강력한 인지 능력과 더 넓은 의미론적 범위가 반드시 더 나은 행동 생성으로 이어지지는 않습니다 — Tsinghua와 Xiaomi는 "기호적 추론(symbolic reasoning)"과 "연속적 행동(continuous action)" 사이의 불일치를 핵심 문제로 식별했습니다.
Tsinghua 대학교 / Xiaomi · 커버리지: Embodied Intelligence Observer 출처 (WeChat, CN)
이 연구는 VLA(Vision-Language-Action) 모델 내의 추론-행동 매핑(reasoning-to-action mapping)을 재구성하며, 사고의 사슬(chain-of-thought)이 장황한 설명보다는 행동의 정밀도를 높이는 데 기여해야 함을 강조합니다. 이를 통해 VLM(Vision-Language Model)으로 학습된 기호적 출력(symbolic outputs)과 실제 하드웨어의 연속 제어(continuous control) 요구 사항 사이의 괴리를 완화합니다.
ThinkingVLA: 행동하는 동안 다음 프레임을 "상상하기" · vla
전통적인 VLA는 반사 신경에 의존하는 견습생처럼 행동합니다. 명령이 주어지면 예측이나 사후 검증 없이 즉시 행동을 출력합니다. 이러한 방식은 공간적 추론(spatial reasoning)이 필요한 다단계 작업에서 빠르게 한계에 부딪힙니다.
Fudan University · Coverage: Humanoid Lab source (WeChat, CN)
이 방법론은 모델이 실행 중에 중간 표현(intermediate representation)으로서 다음 시각적 프레임을 예측하도록 하여, "상상된 미래 관측(imagined future observations)"을 행동 생성에 내재화합니다. 이를 통해 장기 작업(long-horizon tasks)에서의 성공률을 향상시킵니다.
모션 중심 잠재 행동: 50개의 궤적(Trajectories)으로 학습된 교차 체형(Cross-Embodiment) VLA · vla
고품질의 로봇 조작(manipulation) 데이터는 수집 비용이 매우 높지만, 1인칭 시점의 인간 비디오는 사실상 무한합니다. 인간 비디오에서 행동 사전 지식(action priors)을 추출하고 이를 최소한의 실제 로봇 데이터와 정렬하는 것은 데이터 비용을 줄이기 위한 주요 접근 방식 중 하나입니다.
Coverage: Embodied Algorithm source (WeChat, CN)
이 프레임워크는 대규모의 주석이 없는 1인칭 인간 비디오에서 일반적인 "모션 중심 잠재 행동(motion-focused latent action)" 사전 지식을 추출한 다음, 단 약 50개의 로봇 시연 궤적(demonstration trajectories)만을 사용하여 새로운 로봇 플랫폼에서 모델을 최첨단(state-of-the-art) 성능에 가깝게 구현합니다.
RT-VLA: 이중 분기 디커플링(Dual-Branch Decoupling) + 다단계 증류(Multi-Level Distillation), 엔드투엔드(End-to-End) 주행을 위한 44배 속도 향상 · 자율주행(autonomy)
대규모 주행 모델을 차량에 배포할 때 추론 지연(inference latency)은 피할 수 없는 병목 현상이 됩니다. 본 연구는 속도를 위해 증류(distillation)를 활용하며, 추론-설명(reasoning-explanation) 모듈의 결합 오버헤드(coupling overhead)를 제거하면서도 교사 모델(teacher model)의 능력을 유지하는 것을 목표로 합니다.
CMU · 보도: Shenlv AI 출처 (WeChat, CN)
RT-VLA는 고정된 대규모 교사 모델인 SimLingo로부터 이중 분기 런타임 아키텍처(dual-branch runtime architecture)와 계층적 증류 학습 체계(hierarchical distillation training scheme)를 갖춘 경량 학생 모델(student model)을 증류하며, 엔드투엔드 추론에서 약 44배의 속도 향상을 달성했다고 주장합니다.
오늘의 다른 논문들: TopoRetarget — 원격 조작(teleoperation) 및 시연 데이터 수집을 위한 Wuji Hand 기반의 위상 보존(topology-preserving) 숙련된 손 동작 리타겟팅(dexterous hand motion retargeting) (보도 출처 (WeChat, CN)).
오픈 소스 · 도구 · 벤치마크 (Open Source · Tools · Benchmarks)
· MBench (Tencent × Tsinghua): 비디오/월드 모델 (video/world models)에서의 "장기 기억 (long-term memory)"을 전문적으로 평가하는 최초의 벤치마크입니다. 엔티티 (entity), 환경 (environment), 인과 관계 (causal) 차원으로 나뉘는 1,040개의 사례를 12개의 하위 차원으로 구성했습니다. "정적 콘텐츠 생성을 통한 부정행위"에 페널티를 부여하는 트리거 조건부 점수 산정 방식 (Trigger-Conditioned Scoring)을 도입했습니다. 14개의 SOTA 모델을 평가한 결과, 공간 기하학 (spatial geometry)과 인과적 진화 (causal evolution)가 공통적인 병목 현상이며, 시각적 충실도 (visual fidelity)가 곧 기억의 안정성 (memory stability)을 의미하지는 않는다는 것을 보여주었습니다. 데이터셋, 평가 코드, 라이브 리더보드 및 기술 보고서가 완전히 오픈 소스로 공개되었습니다 출처 (WeChat, CN).
· NVIDIA JetPack 7.2: 로보틱스 엣지 개발 스택 업데이트 — NemoClaw 지원, Yocto Project 지원 및 AGX Orin 32GB Super Mode가 추가되었습니다 출처.
· Sharpa Wave (Wuji Hand): 브라우저 내 대화형 URDF 시각화를 제공하는 오픈 소스 다재다능한 손 (dexterous hand) 벤치마킹 플랫폼으로, 16개 이상의 주요 다재다능한 손에 대한 실제 테스트 데이터와 나란히 비교하는 사양 비교 기능을 제공합니다 출처 (WeChat, CN).
II. 투자 및 거래 (Funding & Deals)
DaxAI Robotics (大咖机器人) | Pre-A | 수억 위안 · embodied ⚠️ 주문 수치는 기업 공개 사항입니다
Jinshajiang Ventures (중국 초기 단계 VC)가 주도하고 Yunshi Capital, Shengshi Investment, Lingxin Qiaoshou / Lingcheng Future, 그리고 상장 기업의 CVC 부문이 참여했습니다. 2025년 5월에 설립된 이 팀은 JD.com의 자율주행 부문 핵심 멤버 출신들과 중국과학기술대학교 (University of Science and Technology of China) 학사 졸업생들로 구성되어 있습니다. 이 회사는 DaxBrain-WM embodied (체화된) 세계 모델과 범용 하드웨어 플랫폼을 결합한 이중 엔진 접근 방식을 추구하며, 범유통 (pan-retail), 범물류 (pan-logistics), 그리고 노인 돌봄 시장을 목표로 합니다. 이들의 양팔 정밀 조작 휴머노이드 (bimanual dexterous humanoid)는 69,800 위안부터 시작하며, 회사는 또한 1,000kg의 페이로드 (payload) 용량을 가진 톤급 중량물 로봇 말 (robot horse)을 공개했습니다. 회사는 설립 첫해에 4차 라운드를 완료했으며, 반기 주문액은 3억 위안을 초과하고 수천 대가 배치되었다고 밝혔습니다. IT Juzi 데이터에 따르면, 중국의 embodied AI / 로보틱스 (robotics) 섹터는 올해 상반기 288건의 거래를 통해 약 460억 위안을 유치했습니다 (공개된 금액이며, 매출 아님). 자본은 광범위한 베팅에서 실제 주문을 보유한 소수의 팀으로 이동하고 있습니다. 출처: Science and Tech Innovation Board Daily source (WeChat, CN)
Daimon Robotics (戴盟机器人) | Series A | 1억 위안 이상 · embodied
Inovance Technology(중국 산업 자동화 리더)의 산업 펀드인 Inovance Industrial Investment와 China Telecom이 공동 투자했습니다. Daimon은 시각-촉각 센싱 (visuotactile sensing) 및 정교한 손 (dexterous hands)에 집중하며, 로봇의 "정확한 촉각" 능력을 목표로 합니다. 이는 Embodied Manipulation (체화된 조작) 배포를 위한 하드웨어 병목 현상으로 널리 간주되는 분야입니다. 출처: Greater Bay Area Common Home source (WeChat, CN)
ZuzuZoos | Pre-A | 수천만 위안 · adjacent
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기