FutureX · Physical AI Daily — Issue 29 (06/16) - Insights | Molayo

오늘의 주요 뉴스

· 해양 임보디드 인텔리전스 (Embodied Intelligence)가 새로운 자본의 프런티어가 되다: Shihang Intelligent가 10억 위안(RMB) 이상의 A-round 투자를 유치하며 해양 로보틱스 분야에서 글로벌 단일 라운드 최대 투자 기록을 세웠습니다. Zhu Xiaohu는 5회 연속 투자를 이어갔으며, Temasek이 새로운 투자자로 참여했습니다.

· 월드 모델 (World Models)에 대한 대규모 자금 유입 지속: SenseTime 계열사인 Daxiao Robotics는 상반기에 수억 달러를 확보했으며, 홈 월드 모델인 Kairos-HomeWorld를 출시했습니다. 한편, GigaAI는 3개월 만에 35억 위안(RMB)을 추가로 확보했습니다.

· Zhiyuan Yuanzheng A3, 인간을 상대로 한 "완전 자율" 탁구 경기 구현 — 원격 제어, 스크립트, 인간의 개입 없음 — 고난도 동적 폐루프 (Closed-loop) 능력 시연 (업체 주장).

· 중국 산업 전반에 걸친 휴머노이드 로봇의 데뷔: SERES의 휴머노이드 "Xiao Sai"가 슈퍼 팩토리에서 처음 모습을 드러냈습니다. Songyan Dynamics는 첫 오픈 소스 HarmonyOS 소비자용 휴머노이드 N2를 출시했으며, Huawei는 휴머노이드를 HarmonyOS 생태계에 편입시켰습니다.

· 연구 측면에서는 "월드 모델 / 월드-액션 모델 (World-action model)" 논문들이 집중적으로 등장: μ₀는 픽셀 예측을 3D 궤적 예측으로 대체했습니다. Tencent Robotics X는 풀스택 VLA인 HyVLA-0.5를 오픈 소스로 공개했습니다.

I. 연구 논문

μ₀: 확장 가능한 3D 상호작용 궤적 월드 모델 (A Scalable 3D Interactive Trajectory World Model) · 월드 모델 (world-model)

현재의 월드 모델은 두 가지 주요 경로를 따르며, 각각 비효율성을 가지고 있습니다: 픽셀 공간 (pixel-space) 비디오 모델은 밀집된 외형 재구성(appearance reconstruction)에 연산량을 소모하며, 직접적인 액션 모델 (action models)은 임보디먼트 (embodiment) 특화 액션 라벨이 필요하여 확장이 어렵습니다. μ₀는 세 번째 경로를 제시합니다 — 상호작용이 일어날 소수의 지점의 움직임만을 예측하는 방식입니다.

Seungjae Lee et al. · arXiv 2606.13769 source · Commentary: SourceMind source (WeChat, CN)

μ₀는 조밀한 픽셀(dense pixels)이나 직접적인 액션(actions)을 예측하지 않습니다. 대신, 물체, 도구, 손, 접촉 영역과 같은 주요 상호작용 지점에 대해 매끄러운 3D 궤적(trajectories)을 예측하여, 컴팩트하고 체화 방식에 구애받지 않는(embodiment-agnostic) 모션 인터페이스를 형성합니다. 함께 제공되는 TraceExtract 시스템은 다양한 비디오 소스에서 키포인트(keypoints)를 자동으로 선택하고 3D 감독 신호(supervision signals)를 구축하여, 액션 라벨이 없는 이질적인 비디오 데이터로 학습한 후 특정 로봇으로 전이(transfer)할 수 있게 합니다.

Hunyuan Hy-Embodied-0.5-VLA: VLA 모델부터 실물 로봇 학습까지의 풀스택 시스템 · vla

단순히 벤치마크 점수만을 쫓는 또 다른 VLA가 아니라, Tencent Robotics X가 데이터 수집, 모델, 사전 학습/미세 조정(pretraining/fine-tuning), 강화학습(RL) 사후 학습, 그리고 실물 로봇 배포에 이르는 전체 파이프라인을 오픈 소스로 공개하는 것입니다. 이는 이 시스템의 엔지니어링 가치를 그 어떤 단일 지표보다 더 크게 만듭니다.

He Zhang et al. (Tencent Robotics X) · arXiv 2606.14409 source · Commentary: Jiqizhixin source (WeChat, CN) · HF↑6

이 논문은 로봇 학습 풀스택의 모든 단계를 다룹니다. 데이터 측면에서는 수집을 위해 서브 밀리미터(sub-millimeter) 단위의 손가락 끝 UMI 인터페이스를 사용하여 무거운 리더-팔로워(leader-follower) 원격 조종을 제거했습니다. 사후 학습 측면에서는 Flow-matching 기반 VLA 강화 학습에 근사 선호 최적화(Proximalized Preference Optimization, PRO)를 체계적으로 도입한 최초의 사례로, 실물 로봇의 실패 데이터를 직접 활용하며 실물 로봇 작업에서 100%에 가까운 성공률을 달성했다고 주장합니다. 모델과 방법론은 오픈 소스로 공개되었습니다.

EQRL: 작업 난이도 기반 VLA를 위한 탄력적 실행 스케줄링 (Elastic Execution Scheduling for VLAs Based on Task Difficulty) · vla

기존의 VLA (Vision-Language-Action models)는 현재 상태가 자유 공간 이동 (free-space translation)을 포함하는지 또는 접촉 정렬 (contact alignment)을 포함하는지에 관계없이 고정된 디노이징 단계 (denoising steps)와 재계획 주기 (replanning cadences)를 적용합니다. 이는 난이도가 서로 다른 상태들에 컴퓨팅 자원을 균등하게 분산시키는 결과를 초래합니다. EQRL은 "얼마나 오래 계산할 것인가"를 학습 가능한 결정 사항으로 만듭니다.

Ge Wang 외 (Ising AI & CUHK-Shenzhen) · arXiv 2606.14375 source · 논평: Embodied Intelligence Chat source (WeChat, CN)

EQRL은 경량화된 잠재 스케줄 어댑터 (latent-schedule adapter)를 사용하여 기반이 되는 VLA를 미세 조정 (fine-tuning)하지 않고도 잠재 입력 (latent inputs), 디노이징 예산 (denoising budgets), 그리고 액션 청크 길이 (action chunk lengths)를 공동으로 선택합니다. 학습된 비평가 (critic)는 스케줄러에 난이도 인지 능력을 부여합니다. 즉, 어렵거나 접촉이 밀집된 상태에는 더 많은 컴퓨팅 자원과 더 빈번한 피드백을 할당하고, 쉬운 상태에는 더 적은 추론 (inference)과 더 긴 오픈 루프 실행 (open-loop execution)을 사용합니다. 논평에 따르면 추론 비용이 약 32% 감소했다고 합니다.

WAM4D: 공간 레지스터 토큰을 통한 빠른 4D 월드-액션 모델 (Fast 4D World-Action Model via Spatial Register Tokens) · world-model

대부분의 월드-액션 모델 (world-action models)은 2D 비디오 또는 잠재 공간 (latent space)에서 작동합니다. "그럴듯해 보이는" 예측들은 3D 공간 제약 조건과 가려진 영역의 접촉 기하학 (contact geometry)이 부족하여 정밀한 조작 (manipulation)에는 불충분합니다. 그러나 모델이 조밀한 4D 기하학을 디코딩하도록 강제하면 인과적 액션 생성 (causal action generation) 속도가 느려집니다. WAM4D는 이 두 가지를 모두 충족하는 것을 목표로 합니다.

Ying Li 외 · arXiv 2606.14048 source

WAM4D는 미래의 깊이(depth)를 위한 학습 시점의 판독 지점(readout points)으로서 경량화된 "공간 레지스터 토큰 (spatial register tokens)"을 도입하여, 사전 학습된 기하학적 파운데이션 모델 (geometric foundation models)로부터의 3D 사전 지식 (3D priors)을 인과적 비디오-액션 모델 (causal video-action model)로 전이합니다. 이를 통해 값비싼 밀집 기하학적 디코딩 (dense geometric decoding) 없이도 빠른 추론 속도를 유지하면서, 액션 예측이 3D 및 접촉 기하학적 제약 조건 (contact geometry constraints)을 반영할 수 있게 합니다.

ContactWorld: 접촉이 빈번한 조작(Contact-Rich Manipulation)을 위한 시각-촉각 세계 모델 (Visuo-Tactile World Models)의 핵심 요소 · world-model

접촉이 빈번한 작업에서 실제로 장기 계획 (long-horizon planning)을 지원하는 표현 (representation)이 무엇인지에 대한 체계적인 답변이 부족했습니다. 본 논문은 새로운 벤치마크를 사용하여 어떤 표현을 선택해야 하는지에 대한 질문을 실증적으로 해결합니다.

Zhiyuan Zhang 외 · arXiv 2606.13877 source

저자들은 삽입 (insertion), 분해 (disassembly), 나사 조이기 (screw-tightening), 탐색적 상호작용 (exploratory interaction)을 포함한 12가지 범주의 접촉 빈번 작업 (contact-rich tasks)을 다루는 벤치마크를 구축하고, 시각-촉각 세계 모델 (visuo-tactile world models)을 체계적으로 비교합니다. 결론은 다음과 같습니다: "공간적으로 구조화되고 (spatially structured)" 동시에 "시간적으로 연속적인 (temporally continuous)" 표현이 가장 안정적으로 계획을 수행합니다. 포인트 클라우드 (Point cloud) 관측은 손목 카메라 (wrist-camera) 뷰보다 평균 계획 성공률을 현저히 높였으며 (20.7% 및 22.0%), 이는 접촉 추론 (contact reasoning)을 위한 구조화된 기하학적 정보의 가치를 강조합니다.

출력층 정규화 (Output-Layer Regularization)를 통한 단일 GPU VLA 미세 조정 시의 "랜덤 시드 복권 (Random-Seed Lottery)" 문제 제거 · vla

동일한 코드, 동일한 데이터, 오직 랜덤 시드 (random seed)만 변경했을 때: 13번 실행 중 12번은 91~94%에서 안정적으로 안착했으나, 한 번은 조용히 65.2%로 떨어졌습니다. 오류나 경고도 없이 29%포인트나 급락한 것입니다. 본 논문은 이 문제의 명칭을 정의하고, 원인을 특정하며, 실무자들에게 매우 유용한 저비용의 실용적인 해결책을 제시합니다.

Jeffrin Sam, Dzmitry Tsetserukou (Skoltech) · arXiv 2606.13856 source

저자들은 이 현상을 "시드 로또 (seed lottery)"라고 부르며, 그 근본 원인을 "출력 붕괴 (output collapse)"로 규명했습니다. 즉, 행동 예측기 (action predictor)가 입력을 무시하고 거의 동일한 행동을 생성하도록 학습되는 것입니다. L2 및 EWC와 같은 가중치 공간 (weight-space) 방식은 여기서 구조적으로 실패합니다. 이 방식들은 가중치 변화에 페널티를 부여하지만, 붕괴는 가중치가 거의 변하지 않는 방향을 따라 발생하기 때문입니다. 출력층 정규화 (output-layer regularization)로 전환하면 이러한 붕괴를 제거할 수 있습니다.

DiPOD: RL 사후 학습 중 확산 정책 (Diffusion Policy)의 "표류 (Drift)" 방지 · manipulation

강화학습 (RL) 사후 학습 (post-training)은 확산 정책 (diffusion policies)을 개선하는 데 점점 더 중요해지고 있지만, 기존의 확산 정책 경사 하강법 (diffusion policy gradient) 방식은 종종 불안정하고 신뢰할 수 없습니다. Berkeley의 이 논문은 불안정성 뒤에 숨겨진 메커니즘을 식별하고 간단하고 실용적인 해결책을 제공합니다.

Haozhe Jiang et al. (UC Berkeley) · arXiv 2606.13795 source

저자들은 "이중 표류 (dual drift)"를 식별했습니다. 변분 대리 목적 함수 (variational surrogate objective)를 최적화하면 ELBO가 실제 로그 가능도 (true log-likelihood)에서 벗어나게 되며, 이는 결과적으로 대리 정책 경사 (surrogate policy gradient)가 실제 보상 정책 경사 (true reward policy gradient)에서 벗어나게 만듭니다. DiPOD는 학습 중에 자기 증류 (self-distillation)와 정책 개선 (policy improvement) 업데이트를 교대로 수행하며, 이는 각 확산 정책 경사 단계에 온-정책 (on-policy) ELBO 정규화 항을 추가하는 것과 동일하여, 전체 과정 동안 긴밀한 경계 (tight bounds)와 안정적인 개선을 유지합니다.

RT-VLA: 지식 증류를 통한 실시간 자율 주행 VLA · autonomy

인식, 언어 추론, 행동을 엔드투엔드 (end-to-end)로 공동 모델링하는 VLA는 유망하지만, 거대 시각-언어 백본 (vision-language backbones)의 추론 지연 시간 (inference latency) 때문에 실제 환경 배포가 비현실적입니다. 이 논문은 증류 (distillation)를 사용하여 해당 능력을 실시간으로 실행 가능한 모델로 압축합니다.

Xiangyu Huang et al. (CMU) · arXiv 2606.14010 source

RT-VLA는 다단계 지도 증류 (multi-level supervised distillation)를 사용하여 최첨단 주행 모델인 SimLingo의 주행 및 추론 능력을 소형 학생 모델 (student model)로 전이합니다. 안전이 중요한 순간에 대한 사후 언어 분석 (Post-hoc language analysis)은 실시간 제어 지연 (latency)을 추가하지 않으면서 해석 가능성 (interpretability)을 보존하기 위해 오프라인으로 수행됩니다.

오늘의 다른 논문들: Multi-Agent Embodied Autonomous Driving (서베이 논문,

쑤저우(Suzhou)에 본사를 둔 해양 임바디드 인텔리전스 (Embodied Intelligence) 기업으로, 추진, 제어, 감지, 항법, 밀봉 및 배포를 아우르는 6개 시스템 전반에 걸쳐 완전히 자체 개발한 스택 (Stack)을 보유하고 있으며, 복잡한 수중 환경에 집중하고 있습니다. 신규 투자자로는 Moore Threads 및 Kunlun Chip이 지원하는 Shanghe Momentum Fund, Temasek의 Vertex Growth, CITIC Group의 농업 산업 펀드, Yuzun Capital, 상장 기업인 Dayang Electric 등이 있으며, 기존 투자자인 GGV Capital 등이 후속 투자를 진행했습니다. Zhu Xiaohu는 현재 이 회사에 5회 연속으로 투자했습니다. 이 회사는 이번 라운드가 글로벌 해양 로보틱스 분야에서 단일 라운드 기준 최대 규모의 자금 조달이며, 상반기 수주액이 10억 위안(RMB)을 초과했다고 주장합니다. 해양은 자본이 대체로 간과해 온 "물리적 세계의 롱테일 (Long tail)"이며, 이번 라운드는 인구 밀집도가 높은 지상 기반 휴머노이드 공간을 넘어선 새로운 전선을 열었습니다. 출처: IPO Early Notice source (WeChat, CN)

Daxiao Robotics | 엔젤+ (Angel+) 라운드 | 수억 달러 (상반기 누적) · 월드 모델 (World-model)

FutureX · Physical AI Daily — Issue 29 (06/16)

요약

핵심 포인트

I. 연구 논문

댓글