본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 25. 00:19

FutureX · Physical AI Daily — Issue 38 (06/25)

요약

휴머노이드 로봇 기업의 상장 및 투자 소식과 함께, 로봇 정책 학습을 위한 World Models 기반 가치 함수 연구, VLA의 자율적 기술 습득을 돕는 InSight, 그리고 합성 비디오를 활용한 VLA 학습 최적화 방법론을 다룹니다.

핵심 포인트

  • Agility Robotics의 25억 달러 규모 SPAC 상장 계획 및 Foxconn 투자
  • Unitree R1 Air의 가격 인하를 통한 휴머노이드 진입 장벽 완화
  • VLM 대신 World Models를 활용한 로봇 가치 함수 학습 연구
  • InSight를 통한 VLA의 기초 동작 자율 식별 및 데이터 수집
  • 합성 로봇 비디오 학습 시 기하학적 정보 중심의 비대칭 유지 원칙 제안

오늘의 주요 뉴스

· Agility Robotics는 Churchill Capital XI와의 SPAC 합병을 통해 25억 달러의 기업 가치로 상장을 계획하고 있으며, 이는 세계 최초의 휴머노이드 로봇 전문 상장 기업이 될 것입니다. Foxconn이 2억 달러 규모의 PIPE 투자를 주도하고 있으며, 이 회사의 Digit 로봇은 이미 3억 달러 이상의 다년 계약 주문을 확보하고 있습니다.

· Unitree(중국 로봇 기업)의 R1 Air 시작 가격이 ¥10,000 인하된 ¥29,900로 책정되었으며, 대기 명단 없이 즉시 재고 확보가 가능해져 소비자 및 교육용 휴머노이드의 진입 장벽을 더욱 낮췄습니다.

· AGILINK(Zhiyuan Robotics에서 분사된 중국의 정교한 손(dexterous hand) 스타트업)가 약 10억 위안 규모의 새로운 라운드를 마감했으며, 투자 후 기업 가치는 10억 달러를 넘어섰습니다. 이는 5개월 동안 4번의 라운드가 진행된 것으로,

World Value Models: VLMs 대신 World Models를 통한 가치 함수 (Value Functions) 학습 · world-model

범용 가치 모델 (General-purpose value models)은 로봇 정책 학습 (robot policy learning)을 위해 대량의 혼합 품질 데이터를 확장하는 데 핵심적이지만, 주류 가치 모델들은 정적(static)이거나 시간적으로 희소한(temporally sparse) 관측치로 사전 학습된 VLM 백본을 기반으로 구축되어 있어, 가치 추정 (value estimation)에 필요한 시간적 모델링 (temporal modeling)이 부족합니다. 본 논문은 대신 시간적 추론 (temporal reasoning)과 미래 계획 (future planning)에 자연스럽게 적합하며, 과거 맥락에 대한 근거 (grounding)와 미래 결과에 대한 예측 사이의 균형을 맞추는 World Models 상에 가치 함수 (value functions)를 구축합니다.

Zhihao Wang 외 (Tsinghua AIR) · arXiv 2606.24742 source

InSight: VLA가 누락된 기술을 자율적으로 습득할 수 있도록 지원하기 · vla

VLA의 능력은 학습 데이터에 존재하는 기술에 의해 제한됩니다. InSight는 VLA를 "기초 동작 (primitive actions)"(예: "그리퍼를 그릇 위로 이동", "위로 들어 올리기") 수준에서 언어로 제어할 수 있게 만들며, 그 후 VLM 기반의 데이터 플라이휠 (data flywheel)을 사용하여 새로운 작업에 어떤 기초 동작이 누락되었는지 자동으로 식별하고 해당 기초 동작의 시연 (demonstrations)을 자율적으로 수집함으로써, 학습 세트의 기술 경계를 돌파합니다.

Maggie Wang 외 (Stanford) · arXiv 2606.24884 source

생존하는 것을 감독하라: VLA 학습을 위해 합성 로봇 비디오를 사용하는 방법 · vla

생성된 로봇 비디오를 실제 데이터로 취급하고 픽셀로부터 의사 동작 (pseudo-actions)을 역투영 (back-project)하는 것이 일반적인 관행입니다. 본 논문은 이것이 "불일치하는 추상화 (mismatched abstraction)"라고 주장합니다. 비디오는 기하학적 정보(작업이 일어나는 위치)만을 유지하는 반면, 실제 시연은 제어 신호(모터가 정확히 어떻게 움직이는지)를 포함하기 때문입니다. 이에 따라 본 논문은 "비대칭 유지 원칙 (asymmetric retention principle)"을 제안합니다. 즉, VLA를 적응시킬 때 이미 손실된 저수준 제어 신호 (low-level control signals)를 모델이 강제로 학습하게 하는 대신, 생성 과정에서 안정적으로 살아남는 기하학적 정보만을 감독하도록 합니다.

Danze Chen 외 · arXiv 2606.24448 source

ReTVL: Treating Retries in Demonstrations as Supervision, Not Noise · manipulation

인간의 시연(demonstrations)에는 종종 잡음(noise)으로 간주되어 폐기되곤 했던 수정 구간 — 놓친 파지(grasps), 정렬 불량(misalignments), 반복된 시도 등 — 이 포함되어 있습니다. ReTVL은 대신 "재시도 이벤트(retry events)"를 희소한 감독 신호(sparse supervisory signals)로 사용하여 오류에 민감한 가치 함수(value function)를 학습하며, 일반적인 "단조적 진행(monotonic progress)" 가정에서 벗어나 국소적 실행 오류와 작업 가능성(task feasibility)이 어떻게 회복될 수 있는지를 더 잘 특성화합니다.

Xinyao Qin 외 · arXiv 2606.24633 source

FT-WBC: Fault-Tolerant Whole-Body Control Under Actuator Failure · locomotion

로코-매니퓰레이션(Loco-manipulation) 로봇은 액추에이터(actuator) 고장 시 질량 중심(center-of-mass)의 이동과 팔에 의해 발생하는 동적 교란(dynamic disturbances)으로 인해 낙하 위험이 더 커지지만, 기존의 결함 허용(fault-tolerant) 방식은 대부분 팔의 도달 가능성(reachability)을 고려하지 않고 이동(locomotion)만을 다룹니다. FT-WBC는 결함 추정기(fault estimator)와 함께 상/하체 분리 전략을 사용하여 액추에이터 고장 상황에서도 전신 안정성(whole-body stability)과 팔의 도달 가능성을 동시에 유지하며, 결함 허용 범위를 순수 이동에서 로코-매니퓰레이션으로 확장합니다.

Yudong Zhong 외 · arXiv 2606.24466 source

FEARL: A Formally Verifiable Safety Module for Robot Foundation Models · vla

파운데이션 모델(foundation models)이 로봇 제어에 사용될 때, 풍부한 인지(perception)를 가능하게 하는 동일한 표현력(expressiveness)은 모델을 불투명하게 만들고 형식적 검증(formal verification)을 어렵게 만듭니다. FEARL은 모듈형 분해(modular decomposition)를 통해 이 문제를 해결합니다. 대규모 컨트롤러(Controller)는 고차원 인지와 작업 추론(task reasoning)을 처리하는 반면, 소규모 안전(Safety) 모듈은 전용 안전 센서로부터의 저차원 관측값과 컨트롤러로부터 전달된 제한된 컨텍스트 임베딩(context embedding)만을 수신하여 최종 동작을 생성합니다. 이를 통해 충돌 회피와 같은 안전 필수 요구 사항을 분석 가능한 작은 모듈 내에 유지합니다.

Davide Corsi 외 (UC Irvine) · arXiv 2606.23754 source

APR: 정교한 양손이 인간처럼 피아노를 연주하게 만들기 · manipulation

강화학습 (Reinforcement learning)은 시뮬레이션 환경에서 정교한 양손 (bimanual hands)을 이용해 높은 정확도의 피아노 연주를 달성할 수 있지만, 작업 보상 (task reward)만을 위해 최적화된 고자유도 (high-DoF) 손은 종종 부자연스러운 자세나 관절 과신전 (joint hyperextension)을 유발합니다. APR은 소량의 일상적인 인간 연주 데이터를 활용한 적대적 포즈 정규화 (adversarial pose regularization)를 사용하여, 정책 (policy)의 손 포즈 분포를 인간의 사전 지식 (human prior) 쪽으로 유도함으로써 곡마다 비용이 많이 드는 시연 정렬 (demonstration alignment) 과정을 피합니다. 연구팀은 또한 소비자용 Meta Quest 3로 캡처하여 Shadow Hand로 리타겟팅 (retargeted)한 피아노 연주 손 동작 데이터를 수집하여 오픈 소스로 공개했습니다.

Bin Qiu 외 · arXiv 2606.23848 source

오늘의 다른 논문들: NavWM (예측 계획을 위한 통합 내비게이션 월드 모델 (unified navigation world model), arXiv 2606.24101 source); DynaWM (연속적인 계단을 부드럽게 이동하는 바퀴 달린 다리 로봇을 위한 월드 모델 정규화 (world-model regularization for smooth wheeled-legged traversal of continuous stairs), arXiv 2606.24089 source); G³VLA (VLA 시각 토큰에 카메라 캘리브레이션 기하학 주입 (injecting camera calibration geometry into VLA visual tokens), arXiv 2606.24472 source); RoBoSR (체화된 추론을 위한 중간 구조로서의 객체 수준 장면 그래프 (object-level scene graphs as an intermediate structure for embodied reasoning), arXiv 2606.24338 source); Neuro-Symbolic Drive (규칙 기반 플래너의 추론 흔적을 이용한 주행 VLA 감독 (supervising driving VLAs with reasoning traces from a rule-based planner), arXiv 2606.23938 source); ArtiTwinSplat (RGB-D 비디오로부터 상호작용 가능한 디지털 트윈의 자동 재구성 (automatic reconstruction of interactive digital twins from RGB-D video), ETH, arXiv 2606.24628 source); TACTFUL (Amazon이 참여한 자율 촉각 전용 탐사 및 객체 인식 (autonomous tactile-only exploration and object recognition), arXiv 2606.24712 source).

오픈 소스 · 도구 · 벤치마크

· TurboMPC: 전체가 GPU에서 실행되는 엔드-투-엔드 미분 가능한 MPC (Model Predictive Control, 모델 예측 제어) 솔버 (SQP + ADMM, JAX-CUDA 공동 설계 구현). 상태/제어 부등식 제약 조건(state/control inequality constraints) 및 암시적 적분(implicit integration)을 지원합니다. arXiv 2606.24039 source

· Tailor-Bench: 시각적 월드 모델(visual world models)이 "롱테일 및 불규칙한 물리적 상호작용"을 시뮬레이션하는 능력을 구체적으로 테스트하는 벤치마크로, 기존 월드 모델이 물리 법칙을 진정으로 내재화하고 일반화했는지 여부를 직접적으로 다룹니다. arXiv 2606.24256 source

· REALM: 물리적 세계에서의 VLM (Vision-Language Models, 시각-언어 모델)을 위한 통합 레드팀(red-teaming) 평가 벤치마크로, 데이터셋, 지표 및 위협 모델 전반에 걸쳐 기존에 파편화되어 있던 탈옥(jailbreak)/공격 평가를 표준화합니다. arXiv 2606.23892 source

· Amap DreamX-World 1.0 오픈 소스 공개: 스트리밍 출력을 통해 16 FPS로 생성하며, 카메라 회전 시 장면 불일치(scene inconsistency)를 완화하기 위해 기하학적 검색 메모리(geometry-retrieval memory)를 사용하는 5B 파라미터 규모의 대화형 월드 모델입니다. source (WeChat, CN)

II. Funding & Deals

AGILINK | 신규 라운드 | 약 10억 위안 | 포스트 머니 기업 가치(Post-Money Valuation) 10억 달러 초과 · embodied

Mirae Asset, Jingming Capital, 그리고 주요 인터넷 대기업이 이번 라운드를 주도하거나 공동 투자했으며, Hillhouse Ventures와 Lanchi Ventures(중국 VC 기업)를 포함한 기존 투자자들도 지분을 확대했습니다. AGILINK는 정교한 손(dexterous hands)에만 전적으로 집중하기 위해 2026년 1월 Zhiyuan Robotics(중국 휴머노이드 로봇 기업)에서 분사되었습니다. 설립자인 Xiong Kun은 HKUST의 로보틱스 연구소 출신이며 이전에 Tencent Robotics X에서 근무했습니다. 이 회사는 누적 8,000개 이상의 정교한 손(dexterous hands)과 10,000개 이상의 그리퍼(grippers)를 인도했으며, 1,000대 이상의 유닛이 일상적인 산업 및 물류 운영에 투입되어 있다고 밝혔습니다. 5개월 동안 4번의 라운드가 진행된 이번 거래는 자본이 완전한 로봇에서 "손"으로 이동하고 있음을 보여주는 가장 상징적인 신호입니다. 출처: 36Kr source

Agility Robotics | SPAC 합병 | 25억 달러 기업 가치 | 총 6억 2,000만 달러 이상 조달 · humanoid

Michael Klein이 통제하는 Churchill Capital Corp XI와 합병할 예정이며, 합병 후 티커(ticker)는 AGLT가 됩니다. 이번 조달에는 기존 주주인 Foxconn이 주도하는 주당 10달러 규모의 2억 달러 PIPE(Private Investment in Public Equity)와 신탁 계좌로부터의 약 4억 2,000만 달러가 포함됩니다. 회사는 자사의 Digit v5가 이미 3억 달러 이상의 다년 계약을 확보했으며, 9가지 사용 사례에 걸쳐 누적 65,000시간 이상의 운영 시간을 기록했고, Amazon과 Schaeffler를 고객사로 하여 연간 최대 10,000대의 생산 능력을 계획했다고 공개했습니다. 올해 합병이 완료되면 세계 최초의 휴머노이드 로봇 전문 상장 기업이 될 것입니다. 또한 이번 거래는 모든 기존 주주가 자신의 지분을 롤오버(rolling over)하기 때문에 대부분의 SPAC보다 더 실질적인 것으로 간주됩니다. 출처: The Robot Report 외 source

Striding AI | 엔젤 시리즈 (Angel Series) | 약 1억 달러 · humanoid

Charoen Pokphand Group, Huaqin Technology (중국 전자 제조업체), 그리고 9AN Medical (중국 상장 기업)이 참여했습니다. 이 회사는 Deep Lens(중국 AI 칩 스타트업)와 Orienspace(중국 상업 발사 회사)의 전 공동 창립자인 Yao Song에 의해 2026년 초 설립되었으며, '물리적 지능(physical intelligence)'에 중점을 두고 세계 행동 모델(world-action models)과 강화학습 (RL)을 통해 휴머노이드 로봇을 산업 및 상업 환경으로 발전시키는 것을 목표로 합니다. 창립 후 6개월 만에 엔젤 라운드에서 약 1억 달러를 유치한 것은 산업 자본이 초기 단계의 체화된 AI(embodied AI) 팀들을 얼마나 강하게 지원하고 있는지를 보여줍니다. 출처: Sina Finance source

Tsinghua Post-2000 촉각 팀 (Tactile Team) | 엔젤 라운드 (Angel Round) | 수천만 위안 (Tens of Millions of RMB) · 하드웨어

Frees Fund와 Pokeshell Robotics(중국 로봇 투자사)의 지원을 받아, 이 팀은 정교한 손과 로봇 팔에서 촉각 지각 격차(tactile perception gap)를 목표로 초박형 시각-촉각 센서(visuo-tactile sensors)를 개발하고 있습니다. 이는 오늘날 자본이 '손'으로 흐르고 있다는 광범위한 주제와 일치합니다. 출처: Hard Krypton source (WeChat, CN)

Suiqing | 엔젤 라운드 (Angel Round) | 수천만 위안 (Tens of Millions of RMB) · 산업용

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0