FutureX · Physical AI Daily — Issue 47 (07/04) - Insights | Molayo

오늘의 주요 뉴스

· 한국의 대기업인 Samsung, Hyundai, SK 등이 같은 날 남부 지역 산업 투자에 총 약 312조 원(약 1,950억 달러)을 투입한다고 발표하며, Physical AI 제조 분야에 대규모 투자를 단행했습니다. Samsung은 영남 지역에 Physical AI 제조 클러스터를 구축하기 위해 60조 원을 투자할 예정이며, 구미의 로보틱스 공장을 위해 추가로 19조 원을 투자할 계획입니다.

· 산업용 로봇 선두주자인 Estun Automation(중국 산업용 로보틱스 제조사)은 Embodied AI 분야로 확장하기 위해 협동 로봇 자회사인 Estun Cobot을 완전히 인수할 계획이라고 밝혔으며, 이에 따라 주가가 4일 동안 3번의 상한가를 기록했습니다.

· 전 Xiaomi 임원인 Tang Mu가 설립한 푸드 서비스 Embodied AI 기업인 XBOT가 총 수억 위안 규모(Series A: 2억 위안; Series B: 3억~5억 위안)의 두 차례 펀딩 라운드를 마감했습니다.

· (중국 휴머노이드 로봇 제조사인) Unitree Robotics의 IPO 등록 승인 소식에 중국 A주 로보틱스 섹터가 불붙었으며, 하루 만에 40개 이상의 종목이 상한가를 기록했습니다 (IPO는 어제 승인되었으며, 오늘의 움직임은 유통 시장 거래를 반영합니다).

1. 연구 진행 상황

행동을 배우기 전에 움직임을 배워라: VLA를 위한 Task-Agnostic Pretraining (TAP) · vla

VLA 모델은 오랫동안 희소한 전문가 시연 데이터(expert demonstration data)로 인해 병목 현상을 겪어왔습니다. 이 논문은 "움직이는 법을 배우는 것"(운동 능력, motor competence)과 "무엇을 할지 배우는 것"(의미론적 정렬, semantic alignment)을 분리합니다. 먼저 **태스크와 무관하게 버려진 궤적(discarded off-task trajectories) 및 자율 로봇 놀이(autonomous robot play)**를 포함한 저렴한 라벨 미부착 데이터(unlabeled data)를 사용하여, 자기 지도 역학(self-supervised inverse dynamics)을 통해 전이 가능한 동작 사전 정보(motion priors)를 학습합니다. 그 다음, 매우 적은 양의 라벨링된 시연 데이터를 사용하여 해당 사전 정보를 언어 지침에 정렬함으로써, 값비싼 시연 데이터에 대한 의존도를 크게 낮춥니다. 이 논문은 당일 HF↑3를 기록했으며, 이 접근 방식은 데이터가 제한된 환경에서 폭넓은 가치를 지닙니다.

Junhao Shi 외 · arXiv 2607.02466 source

One Demo Is Enough: Real-World Robot Reinforcement Learning (AutoSERL) · 조작(manipulation)

실제 세계의 RL은 두 가지 주요 문제점, 즉 비싼 데이터와 훈련 중 지속적인 인간 개입의 필요성에 직면해 있습니다. AutoSERL은 단 **하나의 시연(single demonstration)**만을 사용하여 개입 과정을 완전히 자동화함으로써 삽입 작업에서 100% 성공률을 달성하고 위치 변동에 대한 더 높은 견고성을 보여주었습니다. 이는 실제 세계 RL의 초기 구축 비용을 하나의 시연으로 줄입니다.

Yuwan Liu 외 · arXiv 2607.01651 source

PhysMani: 동적 조작을 위한 물리 기반 3D 세계 모델 (A Physics-Grounded 3D World Model for Dynamic Manipulation) · 세계 모델(world-model)

빠르게 움직이는 목표물을 잡는 것은 구현된 AI(embodied AI)에게 여전히 어려운 문제입니다. 기존의 VLA 및 세계 모델 모두 정밀한 3D 기하학과 물리적으로 그럴듯한 예측을 동시에 달성하는 데 어려움을 겪습니다. PhysMani은 물리 기반 3D 가우시안 세계 모델과

접촉이 풍부한 조작 (Contact-rich manipulation)은 국부적 변형 (local deformation), 압력, 미끄러짐 (slip), 그리고 마찰 (friction)에 대한 즉각적인 반응을 필요로 합니다. 이러한 신호들은 시각 (vision) 정보에서는 희소하거나 심지어 보이지 않을 수도 있습니다. 기존의 시각-촉각 정책 (visual-tactile policies)은 대부분 촉각 신호를 행동 예측 (action prediction)에 직접 입력할 뿐, 행동 생성 과정에서 **촉각 변형의 역학 (dynamics of tactile deformation)**을 모델링하는 경우는 드뭅니다. VT-WAM은 촉각 감지 (tactile sensing)를 세계 모델 (world model)의 예측 루프 (predictive loop) 안으로 가져옴으로써 이 간극을 메웁니다.

Shuai Tian et al. · arXiv 2607.02503 source

촉각 상상하기: 촉각 하드웨어 없는 "촉각 정보 기반" 조작 · 인지 (perception)

촉각 감지 (tactile sensing)는 접촉이 풍부한 조작을 실질적으로 개선할 수 있지만, 센서는 취약하고 교정 (calibration)이 필요하며 유지 관리 비용이 많이 들어 실제 현장 배포를 제한합니다. 본 논문은 **상상된 촉각 표현 (imagined tactile representations)**을 제안합니다. 배포 시에는 촉각 센서가 설치되지 않음에도 불구하고 로봇은 여전히 촉각 지식의 이점을 얻을 수 있으며, 이는 촉각 하드웨어 없이도 촉각의 이점을 얻을 수 있는지에 대한 근본적인 질문에 답합니다.

Zhiyuan Zhang et al. · arXiv 2607.01684 source

가이드된 행동 흐름: Flow-Matching VLA에 추론 시간 Q-가이드 추가 · VLA

Flow-matching VLA는 반복적인 수송 (iterative transport)을 통해 행동 청크 (action chunks)를 생성하며, 이는 자연스럽게 "재학습이 필요 없는" 테스트 시간 가이드 (test-time guidance)를 위한 여지를 남깁니다. 이 프레임워크는 사전 학습된 SmolVLA 정책을 동결 (frozen) 상태로 유지하고, 학습된 행동-청크 비평가 (action-chunk critic)를 사용하여 역방향 흐름 샘플러 (reverse flow sampler)를 가이드함으로써 백본 (backbone) 가중치를 건드리지 않고도 성능을 향상시킵니다. 이는 저비용의 "동결된 백본 + 추론 시간 다듬기 (inference-time polishing)" 패러다임의 또 다른 사례입니다.

Liuhaichen Yang et al. · arXiv 2607.02092 source

HEFT: 풀스케일 휴머노이드를 위한 고중량 원격 조작 · 보행 (locomotion)

일반적인 동작 추적 (motion tracking)/원격 조작 (teleoperation)은 휴머노이드 기술을 확장하는 하나의 경로이지만, 대부분의 프레임워크는 소형 플랫폼에서 검증되거나 실제 페이로드 (payload) 없이 검증되므로, 실제 하중을 받는 풀스케일 휴머노이드는 거의 연구되지 않은 상태로 남아 있습니다. HEFT는 **특권적 동작 가이드 (privileged motion guidance)**를 사용하여 노이즈가 있는 VR 참조 데이터를 통해 학습한 다음, **윈도우형 페이로드 커리큘럼 (windowed payload curriculum)**을 적용하여 점진적으로 하중을 추가함으로써 견고한 고중량 페이로드 추적을 달성합니다.

Chenxin Liu et al. · arXiv 2607.02332 source

오늘의 다른 논문들: VLA-Corrector는 청크형 VLA (chunked VLA)에 온디맨드 적응형 액션 호라이즌 (on-demand adaptive action horizons)을 갖춘 경량화된 "탐지 및 수정 (detect-and-correct)" 추론을 추가합니다 (arXiv 2607.01804 source); The Moving Eye는 한쪽 팔이 작동하는 동안 다른 쪽 팔이 이동식 카메라 역할을 하는 양팔 설정을 사용하여 VLA의 공간 일반화 (spatial generalization)를 개선합니다 (arXiv 2607.02322 source); WorldSample은 월드 모델 (world model)을 사용하여 실제 환경 강화학습 (RL)에서의 "실제-합성 (real-synthetic)" 데이터 증강 루프를 완성합니다 (arXiv 2607.02431 source); ACID는 역역학 일관성 (inverse-dynamics consistency)을 사용하여 월드 모델 계획 (world-model planning)에서 중간 상태의 달성 가능성을 제한합니다 (arXiv 2607.02403 source); Actuator Reality Shaping은 제로샷 심투리얼 (zero-shot sim-to-real) 전이를 위해 액추에이터 역학 (actuator dynamics)을 형성합니다 (arXiv 2607.02205 source); VLAFlow는 서로 다른 로봇 사전 학습 패러다임을 교차 비교하기 위한 통합 학습 프레임워크를 제안합니다 (arXiv 2607.01586 source); Neuro-Symbolic Safety Guidance는 제약된 흐름 매칭 (constrained flow matching)을 사용하여 VLA에 예측적 장애물 회피 기능을 제공합니다 (arXiv 2607.01378 source); Controllable Sim Agents는 행동 잠재 변수 (behavioral latent variables)를 통해 해석 가능한 축을 따라 제어 가능한 교통 시뮬레이션 에이전트를 생성합니다 (arXiv 2607.02496 source).

오픈 소스 · 도구 · 벤치마크

· Embodied.cpp: 이기종 로봇을 위한 휴대 가능한 임바디드 모델 (embodied-model) 추론 런타임 (runtime)으로, VLA 및 월드-액션 모델 (WAM, world-action models)의 배포를 통합합니다. 모듈형 다중 속도 실행 (multi-rate execution), 지연 시간 우선 융합 추론 (latency-first fused inference), 확장 가능한 연산자/IO를 제공하여 "각 모델마다 고유한 Python 스택과 로봇 측 접착 코드 (glue code)가 필요한" 파편화 문제를 완화합니다 (arXiv 2607.02501 source).

· CommonRoad-Game: CommonRoad 플랫폼과 밀접하게 결합된 경량 인간 참여형 (human-in-the-loop) 자율 주행 시뮬레이션 프레임워크입니다. 인간이 포함된 상호작용 시나리오에서 모션 플래너 (motion planners)를 체계적으로 테스트하고 인간의 주행 행동을 분석하기 위해 특별히 구축되었습니다 (arXiv 2607.01382 source).

· DL-VINS-Factory: 학습된 시각 프런트엔드 (visual front-ends; ALIKED, SuperPoint, XFeat 등)를 LK 광학 흐름 (LK optical flow) 또는 LightGlue 매칭과 결합하여 시각-관성 SLAM (visual-inertial SLAM)을 통합하는 모듈형 프레임워크입니다. 이를 통해 밀접 결합형 (tightly-coupled) VI-SLAM에서 딥 피처 (deep features)의 실질적인 가치를 체계적으로 평가할 수 있습니다 (arXiv 2607.01757 source).

2. 투자 및 거래 (Funding & Deals)

XBOT | 시리즈 A + 시리즈 B | 합계 수억 위안 · 임바디드 (embodied)

범용 음식 서비스 임바디드 (embodied) 로보틱스 기업인 XBOT이 두 차례의 연속적인 투자 라운드를 마감했습니다: 홍콩 Jiankun Capital (GPTX)이 투자한 2억 위안 규모의 시리즈 A와, 여러 정부 펀드, USD 펀드 및 산업 파트너가 참여한 3억~5억 위안 규모의 시리즈 B입니다. 이 회사는 전 Xiaomi 임원인 Tang Mu에 의해 설립되었으며, 같은 날 "커피 한 잔"을 통해 임바디드 (embodied) 상용화를 검증하기 위한 자체 커피 브랜드를 출시했습니다. 투자금은 R&D, 시장 확장 및 팀 빌딩에 사용될 예정입니다. 출처: Tech Capital Circle source (WeChat, CN), Robotics Outlook source (WeChat, CN)

Quanzhibo | 시리즈 A+++ | GL Ventures 주도 · 하드웨어 (hardware)

Wuxi에 본사를 둔 Quanzhibo(통합 로봇 관절 모듈 (joint modules) 제조사)가 GL Ventures(Hillhouse의 벤처 부문)가 주도한 시리즈 A+++ 라운드를 마감했습니다. 여기에 Zhiyuan Robotics(중국 휴머노이드 로봇 스타트업)와 Lingxin Qiaoshou(중국 정밀 로봇 손 제조사)가 전략적 산업 투자자로 참여했습니다. 로봇 제조사와 최상위 자본 모두 이제 상류(upstream) 관절 모듈에 직접 베팅하고 있으며, 이는 "자본이 완전한 로봇에서 관절 모듈 및 로봇 손과 같은 부품으로 흐르는" 이번 사이클의 트렌드를 확장하고 있습니다. 출처: PEDaily source, Shouchuang Holdings source (WeChat, CN)

Rushen Robotics | 프리 A 라운드 (Pre-A Round) | 1억 위안 · 임바디드 (embodied)

상하이에 본사를 둔 Rushen Robotics (칭화대학교 교수가 설립하였으며, 임바디드 (embodied) AI의 노인 돌봄 (elderly-care) 시나리오에 집중함)는 Qingsong Capital, Runze Technology, Pinghu Zexin으로부터 1억 위안 규모의 프리 A 라운드 (Pre-A round) 투자를 유치하며 마감했습니다. 이번 투자금은 노인 돌봄 시설 및 가정 환경에서의 임바디드 (embodied) AI 배포를 가속화하는 데 사용될 예정입니다. 출처: Robotics Outlook source (WeChat, CN)

Lishang LISSOME | 시리즈 A (Series A) | 수천만 위안 · 임바디드 (embodied)

AI 주방 로봇 브랜드인 Lishang은 Sequoia China와 Brizan Ventures가 주도한 수천만 위안 규모의 시리즈 A (Series A) 라운드를 마감했으며, 빈도가 높은 가정 내 요리 시나리오에서의 임바디드 (embodied) AI 배포를 목표로 하고 있습니다. 출처: Embodied Universe source (WeChat, CN)

3. 상용화 및 배포 (Commercialization & Deployment)

Kodiak, 오하이오에서 자율주행 트럭 프로그램 완료 · 자율주행 (autonomy)

Kodiak은 **오하이오 (Ohio)**에서 자율주행 트럭 프로그램의 완료를 발표하며, 무인 장거리 화물 운송의 또 다른 실질적인 이정표를 세웠습니다. 자율주행 트럭 분야는 최근 단순한 데모를 넘어 "주행 거리/프로그램 인도" 측면에서 꾸준한 진전을 보이고 있습니다. 출처: Investing.com source

Insights

FutureX · Physical AI Daily — Issue 47 (07/04)

요약

핵심 포인트

1. 연구 진행 상황

오픈 소스 · 도구 · 벤치마크

2. 투자 및 거래 (Funding & Deals)

3. 상용화 및 배포 (Commercialization & Deployment)

댓글

에이전트가 운영 환경을 망친 것이 아닙니다. 당신의 파이프라인이 망친 것입니다.

CLAUDE.md에 아키텍처 가드레일(Architecture Guardrails)을 구축하는 방법

백악관 AI 표준 발표: 새로운 자율 규범이 2026년 여름 모델 파도에 미치는 영향

Toni-SM/skrl

에이전트가 운영 환경을 망친 것이 아닙니다. 당신의 파이프라인이 망친 것입니다.

CLAUDE.md에 아키텍처 가드레일(Architecture Guardrails)을 구축하는 방법

백악관 AI 표준 발표: 새로운 자율 규범이 2026년 여름 모델 파도에 미치는 영향

Toni-SM/skrl