FutureX · Physical AI Daily — Issue 48 (07/05) - Insights | Molayo

오늘의 주요 하이라이트

· China Humanoid Robot 100 Council과 중국기계공업연합회(China Machinery Industry Federation)가 "감정적 동반자 (emotional companion)" 휴머노이드 로봇의 개발 및 마케팅을 규제하기 위한 이니셔티브를 공동 발표하며 엄격한 윤리 및 개인정보 보호 조치를 촉구했습니다. 시장에서는 이를 약 100만 위안에 달하는 생체 모방 동반자 로봇인 UBTech의 U1과 같은 모델을 정조준한 것으로 널리 해석하고 있습니다.

· Tesla는 텍사스에서 처음으로 비감독 Robotaxi (unsupervised Robotaxi) 서비스를 도입했으며, Miami (Model Y)에서 출시하며 운영 범위를 5개 도시로 확장했습니다. 이는 2분기 인도량이 추세와 달리 약 25% 증가한 것과 맞물려 있습니다.

· Fei-Fei Li와 NVIDIA GEAR의 SimFoundry: 단 하나의 실제 영상만 있으면 상호작용 가능한 시뮬레이션과 "디지털 사촌 (digital cousins)"을 자동으로 생성할 수 있으며, 이를 통해 실제 로봇의 작업 성공률을 최대 **40%**까지 높이고 시뮬레이션 평가와 실제 로봇 성능 간의 상관관계를 0.911까지 달성했습니다.

· LeCun 팀의 AdaJEPA는 테스트 시간 적응 (test-time adaptation)을 통해 세계 모델 (world models)이 "실무를 통해 학습 (learn on the job)"할 수 있도록 하며, 단 0.01~0.03초의 추가 지연 시간만으로 분포 외 (out-of-distribution) 계획 성공률을 거의 두 배로 높였습니다.

· Tsinghua에서 스핀오프된 스타트업인 Guangxiang Technology (Tsinghua-incubated startup)가 수억 위안 규모의 엔젤 라운드를 마감하며 "물리적 네이티브 파운데이션 모델 (physically-native foundation model)" 접근 방식을 옹호하고 있습니다. 이 회사의 산업용 로봇은 이미 자동차 생산 라인에서 오류 없이 21.5시간 연속으로 가동되었습니다.

I. 연구 진척 사항 (Research Progress)

SimFoundry: 단일 실제 영상으로부터 학습 및 평가 가능한 시뮬레이션 세계를 자동으로 생성하기 · benchmark

실제 로봇 데이터를 수집하는 것은 비용이 많이 들고 규모를 확장하기 어렵습니다. Real2Sim 접근 방식은 실제 영상으로부터 시뮬레이션을 역으로 구축하려고 시도하지만, 기존 솔루션들은 3D 장면을 재구성하거나 정책 평가 (policy evaluation)를 가능하게 하는 것 중 하나만을 해결하는 등 퍼즐의 한 조각만을 다루는 경우가 많았습니다. SimFoundry는 장면 재구성 (scene reconstruction), 데이터 생성 (data generation), 정책 평가 (policy evaluation), 그리고 정책 학습 (policy training)을 하나의 완전한 real-to-sim-to-real 파이프라인으로 연결합니다. 일반적인 RGB 영상으로부터 상호작용 가능한 "디지털 트윈 (digital twin)"이 자동으로 생성되며, 이로부터 물체의 기능과 어포던스 (affordances)를 유지하면서도 물체를 교체하거나 레이아웃을 변경하거나 새로운 작업을 부여한 "디지털 사촌 (digital cousins)"들을 일괄적으로 파생시켜 거의 무한한 학습 데이터를 생성합니다. 세 가지 범주의 디지털 사촌을 도입한 결과, 실제 로봇의 작업 성공률이 각각 17%, 21%, 그리고 40% 상승했으며, sim-to-real 피어슨 상관계수 (Pearson correlation)는 0.911에 도달했습니다. 또한, 이 생성된 데이터만으로 학습된 정책은 실제 로봇에 제로샷 (zero-shot)으로 배포될 수 있었습니다.

Nadun Ranawaka Arachchige et al. (NVIDIA GEAR / Georgia Tech / Stanford / UT Austin / University of Toronto, Fei-Fei Li, Jim Fan, Yuke Zhu 포함) · arXiv 2606.28276 source · Coverage: QbitAI source (WeChat, CN)

AdaJEPA: 배포 후에도 계속 학습하는 월드 모델 (World Models) · world-model

기존의 JEPA 계열 잠재 공간 (latent-space) 월드 모델 (World Models)은 일반적으로 학습 후 파라미터를 고정 (frozen)하며, 이로 인해 테스트 시점의 분포가 변화 (distribution shift)할 때 실패하기 쉬운 경향이 있습니다. 또한, 짧은 시계 (short-horizon) MPC 롤아웃 (rollouts)은 단일 단계 오차를 더욱 증폭시킬 수 있습니다. NYU와 LeCun의 스타트업 AMI는 월드 모델에 테스트 시점 적응 (Test-Time Adaptation, TTA)을 도입한 AdaJEPA를 제안합니다. 이 방식은 MPC로 계획된 동작의 첫 번째 세그먼트만 실행한 후, 다음에 실제로 관찰된 프레임을 자기 지도 학습 (self-supervised) 신호로 사용하여 인코더 (encoder)와 예측기 (predictor)의 마지막 레이어를 가볍게 업데이트합니다 (타임스텝당 단 한 번의 그래디언트 단계 수행). PushObj 및 PointMaze와 같은 분포 외 (out-of-distribution) 작업에서 계획 성공률이 거의 두 배로 증가했으며 (PointMaze GD의 경우 53.3%에서 78.7%로 상승), 추가된 지연 시간 (latency)은 단 0.01~0.03초에 불과했습니다. 이는 고정된 모델에 "배포 시 자기 교정 (self-calibration at deployment)" 메커니즘을 부여하는 것과 유사합니다.

Ying Wang 외 (NYU CILVR Lab / AMI, Mengye Ren 및 Yann LeCun 지도) · arXiv 2606.32026 source · Coverage: QbitAI source (WeChat, CN)

EgoTSR: VLM이 작업이 실제로 진행 중인지 판단하도록 가르치기 · perception

로봇 팔이 움켜쥐기에 실패하여 컵이 다시 테이블 위로 떨어지는 상황 — 시퀀스상으로는 나중에 나타나는 프레임이지만, 실제 작업은 시작 지점으로 되돌아간 상태 — 에서 VLM(Vision-Language Models)은 종종 이를 거꾸로 판단하곤 합니다. 이는 "나중에 나타나는 프레임이 더 완성된 것처럼 보인다"는 지름길(shortcut)에 의존하기 때문입니다. Zhejiang University를 포함한 5개 대학 팀이 개발한 EgoTSR은 바로 이러한 "시간적 순서 편향 (temporal order bias)"을 목표로 합니다. 동일한 이미지 쌍을 정방향과 역방향 순서로 모두 모델에 입력하여 이 지름길을 노출시킨 결과 (InternVL-8B는 정방향에서 거의 99%의 정확도를 보였으나, 역방향에서는 약 **2%**로 급락함), 이러한 문제를 확인했습니다. 연구팀은 4,600만 개의 샘플로 구성된 데이터셋을 구축하고 "먼저 설명하고, 그다음 내재화하며, 마지막으로 계획한다"는 3단계 커리큘럼으로 학습을 진행했으며, 장기적 진행 추론 (long-horizon progress reasoning)을 위한 서브태스크 플래너 (subtask planner)를 추가했습니다. 그 결과, 장기적 작업 (long-horizon tasks)에서 평균 92.4%의 정확도를 달성했으며, 정방향과 역방향 순서 간의 격차는 단 0.1%포인트에 불과했습니다. 또한, 장기 비디오 모니터링을 위한 연속적인 작업 완료 곡선 (task-completion curve)을 출력할 수 있습니다.

Zhejiang University / Tianjin University / Shanghai Jiao Tong University / National University of Singapore et al. (ICML 2026) · arXiv 2604.10517 source · Code: Collab-Gen/EgoTSR · Coverage: Jiqizhixin (Synced) source (WeChat, CN)

GEM: 공간적 격차를 메우기 위해 VLA에 "깊이 시각 (Depth Vision)" 부여하기 · vla

대부분의 현재 VLA(Vision-Language-Action) 모델들은 "의미론적 거인, 공간적 난쟁이 (semantic giants, spatial dwarfs)"입니다. 즉, "빨간 컵"은 인식할 수 있지만 그것이 얼마나 멀리 떨어져 있는지는 정확하게 판단하지 못합니다. GEM을 개발한 Tencent 팀은 VLM (Vision-Language Model) 사전 학습(pretraining) 단계에 깊이 지도(depth-map) 생성을 도입했습니다. Qwen3-VL 백본(backbone) 측면에 시각적 토큰(visual tokens)을 조건(condition)으로 하는 확산 기반(diffusion-based) 깊이 생성 헤드(depth generation head)를 부착하여, 시각적 표현(visual representation)이 3D 구조를 인코딩하도록 강제합니다. 공간 이해 벤치마크인 VSI-Bench에서 점수는 57.9에서 70.6으로 상승(+12.7%)하며 Gemini-3-Pro를 능가했으며, 4개의 LIBERO 스위트 전체에서 평균 **96.1%**를 기록했습니다. 실제 환경의 UR5 장기 작업(Long-horizon tasks, Table Bussing)에서는 평균 진척도가 π₀.₅ 대비 67% 향상되었으며, 깊이 지도 학습(depth supervision)을 제거했을 때 성능이 크게 하락하는 것을 통해 이것이 단순한 부가 기능이 아닌 핵심 인프라로서 기능함을 확인했습니다.

Tencent · arXiv 2605.28548 source · Coverage: Embodied AI Manufacturing source (WeChat, CN)

Drop-Then-Recovery: 언어 레이어의 절반을 제거하면 VLA가 더 강력해진다 · vla

수십억 개의 파라미터를 가진 "언어 브레인 (language brain)"이 VLA에 정말로 필요할까요? University of Maryland와 Cisco Research의 Drop-Then-Recovery는 직관에 반하는 해답을 제시합니다. 언어 백본 (language backbone)의 절반을 물리적으로 제거한 후 이를 복구하도록 미세 조정 (fine-tuning) 했더니, 성공률이 낮아지기는커녕 오히려 높아졌습니다. LIBERO 데이터셋에서 OpenVLA-OFT는 95.0%에서 **98.3%**로, π0.5는 91.7%에서 94.0%로 상승했습니다. 반면, 비전 (vision) 및 액션 (action) 경로는 아주 적은 양의 파라미터만 제거해도 붕괴되었으며, 이는 "잉여적인 언어, 건드릴 수 없는 액션"이라는 명확한 비대칭성을 드러냈습니다. 저자들은 "어떤 레이어를 안전하게 제거하고 복구할 수 있는지"를 예측하기 위한 GateProbe 가상 게이트 (virtual-gate) 지표를 제안하며, 이 연구 결과는 현재 조작 (manipulation) 벤치마크의 언어 그라운딩 (language grounding) 테스트가 너무 취약할 수 있다는 경고의 역할도 합니다.

University of Maryland / Cisco Research · Coverage: Paper Digest Hall source (WeChat, CN)

OmniContact: "접촉 흐름 (Contact Flow)"을 통한 장기적 휴머노이드 조작의 연결 · locomotion

장기적 (long-horizon) 휴머노이드 이동-조작 (loco-manipulation)의 어려운 점은 종종 "동작 사이의 이음새 (seams between actions)"에 있습니다. 만약 상자가 움직이거나, 여행 가방이 끼이거나, 혹은 이전 세그먼트가 정밀하게 실행되지 않았다면, 다음 세그먼트가 중단된 지점부터 다시 시작할 수 있을까요? Noitom Robotics와 HKUST 등은 "접촉 흐름 (contact flow)" (누가 무엇을 만지는지, 언제 만지는지, 그리고 접촉 전후에 신체가 어떻게 움직이는지)를 희소한 중간 인터페이스 (sparse intermediate interface)로 사용하는 OmniContact를 제안합니다. 고수준 (high-level)의 CF-Gen은 접촉 흐름을 생성하고, 저수준 (low-level)의 CF-Track은 강화학습 (reinforcement learning)을 사용하여 이를 전신 동작 (full-body motion)으로 추적합니다. 온라인 재계획 (online replanning)이 추가됨에 따라, 상자 운반 수정 성공률은 **99.7%**에 도달했고, 상자 밀기는 94.5%로 상승했습니다. 또한 이 시스템은 VLM (Vision-Language Model)과 연결되어 의미론적 작업 (semantic tasks, 예: 흩어진 상자들을 하트 모양으로 배치하기)을 객체 수준의 목표 (object-level goals)로 분해할 수 있습니다.

Noitom Robotics / Hong Kong University of Science and Technology / Wuhan University / University of Hong Kong · 프로젝트 페이지: omnicontact.github.io · 보도: Embodied AI Research Lab 출처 (WeChat, CN)

오늘의 다른 논문들: 월드 모델 (world models)은 여전히 오늘 가장 활발한 연구 방향입니다. WM-AMT는 사후 학습 (post-training) 전에 "미래 상태 예측 (predict-future-states)" 능력을 주입하여, 에이전트가 먼저 "만약 ~라면 (what-if)" 추론을 수행할 수 있게 합니다 (약 +9.8%의 추론 정확도 향상을 주장함). LoopWM은 월드 모델이 결정을 내리기 전에 동일한 단계를 반복해서 "재고 (reconsider)"할 수 있게 합니다. 또한 월드 모델을 실제 로봇에 연결하여 "꿈 같은 (dream-like)" 시각적 환각 (visual hallucinations)과 접촉 역학 (contact-dynamics) 아티팩트를 완화하는 효율적인 강화학습 (reinforcement learning) 프레임워크도 있습니다.

오픈 소스 · 도구 · 벤치마크

· Xiaomi가 최신 자율주행 모델을 오픈 소스로 공개했습니다: 핵심 기술 팀이 주도하며, 소형 모델로 복잡한 주행 시나리오를 처리하는 데 집중하고 있습니다 source

II. Funding & Deals

Guangxiang Technology (Tsinghua 인큐베이팅 스타트업) ｜ 엔젤 라운드 (누적) ｜ 수억 위안 · 월드 모델 (world-model)

이번 라운드에는 Zhuhai Science & Technology Industry Group, Xingzheng Capital, Songhe Capital, Shunxi Fund, SeeFund와 같은 재무 및 산업 투자자와 상장 기업인 Xingyun Technology가 참여했으며, 기존 주주인 Nova Capital과 L2F Guangyuan Fund의 추가 투자도 포함되었습니다. Guangxiang Technology는 2025년 4월에 설립되었으며, Tsinghua 대학교의 차량 및 모빌리티 학부(School of Vehicle and Mobility)와 인공지능 학부(School of Artificial Intelligence)가 공동으로 인큐베이팅했습니다. CEO인 Zhang Tao는 전 Amap의 공간 인지 엔진 책임자이며, 공동 창립자인 Li Shengbo는 자율주행 강화학습 (reinforcement learning) 전문가입니다. 기술적으로 이 회사는 주류인 VLA 및 비디오 예측 월드 모델 (video-prediction world models)과는 차별화된 "물리 기반 네이티브 파운데이션 모델 (physically-native foundation model)" 경로를 선택했습니다. 이는 Phi-RL Matrix 알고리즘, Phi-Space 데이터 자산, Phi-Arch 플랫폼을 통해 모델이 물리적 상호작용을 통해 질량, 마찰, 인과 관계에 대한 이해를 자발적으로 발달시키도록 합니다. 이 회사의 산업용 로봇인 Phi-Bot X1은 이미 자동차 생산 라인에서 21.5시간 연속으로 오류 없이 용접 픽업 및 배치를 완료했으며, 이동식 품질 검사 효율을 수동 작업 대비 25~45% 향상시켰습니다. 또한 여러 선도적인 자동차 제조사와 파트너십을 맺었으며, 로봇 팔과 PLC가 처리할 수 없는 "30%의 디지털화 격차"를 공략하고 있습니다.

출처: Hard Krypton source (WeChat, CN), 36Kr source

Huiguang Innovation (辉光创新) | 시드(Seed) + 엔젤 라운드 | 수천만 위안 규모 · 하드웨어

Insights

FutureX · Physical AI Daily — Issue 48 (07/05)

요약

핵심 포인트

I. 연구 진척 사항 (Research Progress)

오픈 소스 · 도구 · 벤치마크

II. Funding & Deals

댓글

리뷰어는 버그를 축복했다: 에이전트가 작성한 코드에 계층적 리뷰 (Layered Review)가 필요한 이유

AI Agent 오케스트레이션 플랫폼: LLM 의사결정 엔진을 통한 인지→계획→실행→피드백의 완전한 폐쇄 루프 구현

실시간 AI 오디오 전사(Transcription)를 구축하는 데 필요한 것 (Vomo를 연구하며 얻은 교훈)

리뷰어는 버그를 축복했다: 에이전트가 작성한 코드에 계층적 리뷰 (Layered Review)가 필요한 이유

AI Agent 오케스트레이션 플랫폼: LLM 의사결정 엔진을 통한 인지→계획→실행→피드백의 완전한 폐쇄 루프 구현

실시간 AI 오디오 전사(Transcription)를 구축하는 데 필요한 것 (Vomo를 연구하며 얻은 교훈)