FutureX · Physical AI Daily — Issue 33 (06/20) - Insights | Molayo

오늘의 주요 뉴스

· Hyundai Motor는 SoftBank가 보유한 Boston Dynamics의 잔여 지분 약 9.65%를 약 3억 2,500만 달러에 인수하여 완전한 소유권을 확보할 계획입니다. SoftBank는 풋 옵션 (put option)을 행사하여 엑시트(exit)할 예정이며, 이는 Atlas의 대량 생산과 미국 IPO (기업공개)를 위한 길을 열어줄 것입니다 (언론 보도에 따르면 이번 주 이사회 검토 예정).

· Galaxy General-Purpose Robotics (중국 휴머노이드 로봇 기업)가 약 **20억 프레임 (2 billion frames)**의 인간 동작 데이터로 학습된 범용 소뇌 파운데이션 모델 (general-purpose cerebellum foundation model) AstraBrain-WBC 0.5를 출시했습니다. 이는 전신 실시간 로봇 제어 (whole-body real-time robot control) 분야에서 보고된 최초의 GPT 스타일 스케일링 법칙 (scaling law)이며 (성공률 83.3%→92.6%), Nvidia의 SONIC을 능가한다고 주장하고 있습니다 (업체 보고 수치).

· 자율주행 기업인 Momenta (중국 AV 스타트업)가 미국 시장에서의 차질 이후 홍콩 증권거래소로 방향을 틀어 해외 상장을 위한 중국 증권 규제 당국의 승인을 받았습니다. 이들은 약 10억 달러를 조달하기 위해 최대 약 4,375만 주를 발행할 계획입니다.

· 논문: Richard Sutton, John Carmack 등이 Physical Atari를 소개하며, 실시간 강화학습 (reinforcement learning)을 시뮬레이션 밖으로 가져와 실제 Atari 게임 컨트롤러를 작동하는 물리적 로봇에 적용했습니다.

· 월드 모델 (world model)의 "냉철한 사고 (cold thinking)"와 자금 조달이 동시에 진행 중입니다: 새로운 벤치마크인 WRBench는 현재의 월드 모델에서 "지속적 상태 코어 (persistent state cores)"의 결여를 식별했습니다. 한편, Bezos와 Schmidt가 지원하는 General Intuition은 20억 달러 이상의 기업 가치로 약 3억 달러를 조달하기 위해 협상 중입니다.

I. 연구 논문 (Research Papers)

Physical Atari: 실시간 강화학습을 물리 세계로 다시 가져오기 · 벤치마크 (benchmark)

이것은 "강화학습 (RL)을 실제 세계로 되돌리려는" 하드코어한 시도입니다. 연구팀은 시뮬레이션을 포기하는 대신, 실제 Atari 컨트롤러를 조작하는 실제 로봇을 구축하고 카메라로 화면을 읽게 함으로써, 알고리즘이 물리 세계의 지연 시간 (latency), 마모 (wear), 노이즈 (noise)와 맞서도록 강제합니다. 저자진에는 RL의 선구자인 Sutton과 id Software의 공동 창립자인 Carmack이 포함되어 있습니다.

Khurram Javed et al. (incl. Richard S. Sutton, John Carmack) · arXiv 2606.19357 source

이 시스템은 Robotroller (CX40+ 컨트롤러를 작동하는 로봇), 화면에 게임 비주얼과 보상 신호 (reward signals)를 렌더링하는 Atari Devbox, 기성품 카메라, 그리고 데스크톱 PC로 구성되어 Arcade Learning Environment의 실시간 상호작용 루프를 재현합니다. 견고성 (robustness)을 위해 모든 Robotroller의 움직임은 마모를 줄이기 위해 베어링을 통해 전달되며, 고주파 서보 모니터링 (high-frequency servo monitoring)과 필요 시 제한적 개입이 이루어집니다. 이 논문은 이 실시간 RL 플랫폼을 내구성이 있고 재현 가능하게 만드는 데 집중하며, 아케이드 RL 벤치마크를 순수 소프트웨어에서 물리적 실체 (physical embodiment)로 이전합니다.

현재의 월드 모델은 "지속적인 상태 핵심 (Persistent State Core)"이 결여되어 있음 (WRBench) · 월드 모델 (world-model)

월드 모델 (world models)이 AGI를 향한 핵심 단계로 칭송받는 현 시점에서, 이 논문은 그들의 공통적인 사각지대를 겨냥합니다. 기존의 벤치마크들은 "시각적으로 매력적인 출력과 제어 가능한 카메라 움직임"에 보상을 주지만, 카메라가 다른 곳을 향했을 때 세계가 일관되게 계속 진화하는지에 대해서는 전혀 묻지 않습니다.

Jinpeng Lu et al. · arXiv 2606.20545 source · HF 6↑

저자들은 진정한 세계 모델 (World Model)이 관측 (Observation)으로부터 분리되어 지속적으로 진화하는 내부 상태 (Internal State)를 필요로 한다고 주장합니다. 이를 통해 관측되지 않는 상황에서도 객체가 지속되고 사건이 전개될 수 있습니다. 이들은 카메라의 움직임을 "관측 가능성에 대한 개입 (Intervention on observability)"으로 취급하는 최초의 체계적인 진단 벤치마크인 WRBench를 도입하여, 생성된 세계가 시야 (Field of view)를 벗어난 후에도 상태 일관성 (State consistency)을 유지하는지 테스트합니다. 결과에 따르면 현재의 주류 세계 모델들은 이러한 지속적인 상태 핵심 (Persistent state core)이 전반적으로 부족한 것으로 나타났습니다.

ImageWAM: 세계-행동 모델 (World-Action Model)에 정말 비디오 생성이 필요한가? · world-model

이 논문은 세계-행동 모델 (WAMs)에 찬물을 끼얹는 동시에 하나의 지름길을 제시합니다. 즉, 다중 프레임 (Multi-frame)의 미래를 예측하기 위해 비용이 많이 드는 비디오 생성을 사용하는 대신, 문제를 "이미지 편집 (Image editing)"으로 재정의하는 것입니다.

Yuyang Zhang et al. · arXiv 2606.19531 source · HF 7↑

저자들은 비디오 기반 WAM에서 발생하는 세 가지 복합적인 비용을 식별했습니다: 다중 프레임 미래 토큰 추론 (Token inference) 비용이 높고, 행동과 무관한 시간적 및 외형적 세부 사항에 용량 (Capacity)이 낭비되며, 장기적 상상 (Long-horizon imagination) 오류가 행동 예측을 오도할 수 있다는 점입니다. 대신 ImageWAM은 사전 학습된 이미지 편집 모델을 로봇 행동 예측을 위해 재용도화하여, "현재 프레임 → 목표 프레임"으로의 변환만을 모델링함으로써 행동과 더 잘 정렬된 사전 정보 (Prior)를 제공합니다.

World Engine: 자율 주행이 "사후 학습 (Post-Training)" 시대에 진입하다 · autonomy

엔드 투 엔드 (End-to-end) 자율 주행에서 가장 심각한 부족 현상은 실제 데이터로부터 수집하는 것이 거의 불가능한 "롱테일 위험 시나리오 (Long-tail hazard scenarios)"입니다. 이 논문은 학습의 초점을 "더 많은 로그를 주입하는 것"에서 "합성된 위험 시나리오에 대한 사후 학습 (Post-training on synthesized hazards)"으로 전환합니다.

Tianyu Li, Li Chen et al. · arXiv 2606.19836 source

World Engine은 실제 주행 로그로부터 고충실도(high-fidelity) 상호작용 환경을 재구성한 다음, 현실적인 안전 임계 상황(safety-critical variants, 희귀하고 상호작용이 많은 시나리오)을 체계적으로 외삽(extrapolate)하며, 이러한 합성된 위험 요소(synthetic hazards)를 사용하여 사전 학습된 주행 모델을 사후 학습(post-train)합니다. 저자들은 롱테일(long-tail) 상호작용이 학습된 정책(policies)의 실제 안전 경계를 정의하며, 이러한 데이터는 현실 세계에서 대규모로 수집될 수 없기 때문에 합성 사후 학습(synthetic post-training)이 자연스러운 해결책이라고 주장합니다.

HumanScale: 1인칭 시점 인간 비디오가 실제 로봇 데이터보다 뛰어날 수 있다 · vla

이 논문은 실제 로봇 데이터 대신 1인칭 시점(egocentric) 인간 비디오를 사용하는 접근 방식에 대한 핵심적인 대조 실험을 제공하며, 인간 비디오가 더 저렴할 뿐만 아니라 체화된 사전 학습(embodied pretraining)을 위해 원격 조종(teleoperated) 로봇 데이터보다 실제로 더 뛰어난 성능을 보일 수 있음을 발견했습니다.

Juncheng Ma et al. · arXiv 2606.20521 source · HF 3↑

원격 조종 로봇 궤적(trajectories)은 정밀한 행동 감독(action supervision)과 우수한 체화 정렬(embodiment alignment) 덕분에 오랫동안 체화된 사전 학습의 주요 원천이었으나, 수집 비용이 높고 행동 및 환경의 다양성이 낮다는 단점이 있습니다. 저자들은 사전 학습 소스로서 1인칭 시점 인간 비디오와 원격 조종 로봇 데이터를 체계적으로 비교하였으며, 더 확장 가능하고 저렴하며 다양한 인간 비디오가 동일한 조건 하에서 사전 학습 소스로서 실제 로봇 데이터와 대등하거나 이를 능가할 수 있음을 발견했습니다.

SWAP: 등변 대칭 세계 모델(Equivariant Symmetric World Model)이 새로운 사족 보행 파쿠르 기록을 세우다 · locomotion

"대칭(symmetry)"이라는 기하학적 사전 지식(geometric prior)을 세계 모델(world model)과 정책 네트워크(policy network)에 직접 결합함으로써, 좌우 대칭인 상호작용에 대한 중복 학습을 제거하여 사족 보행 파쿠르가 새로운 실세계 기록을 달성할 수 있도록 합니다.

Kaixin Lan et al. · arXiv 2606.19928 source

순수하게 데이터 중심적인 잠재 세계 모델 (latent world models)은 좌우 대칭인 상호작용을 독립적인 패턴으로 중복 인코딩하여, 학습 부담을 가중시키고 기하학적 규칙성 (geometric regularity) 포착 능력을 약화시킵니다. SWAP은 세계 모델 (world model)과 액터-크리틱 (actor-critic) 네트워크 모두에 대칭성을 임베딩하는 엔드 투 엔드 등변 대칭 세계 모델 (end-to-end equivariant symmetric world model)을 제안합니다. 실제 하드웨어 테스트에서 로봇은 2.13미터의 간극을 건너고, 1.63미터 높이의 플랫폼을 올랐으며, 본 적 없는 거울형 지형 (mirrored terrains)에 대한 제로샷 일반화 (zero-shot generalization) 능력을 입증했습니다.

인간의 시연으로부터 로봇 손을 직접 "생성하기" · manipulation

로보틱스는 제어 (control) 학습에는 뛰어나지만 "신체"를 학습하는 경우는 드뭅니다. 이 논문은 400만 프레임 이상의 인간 손 동작을 사용하여 숙련된 손 (dexterous hand) 자체의 형태 (morphology)를 최적화합니다.

Sha Yi, Carmelo Sferrazza, Michael T. Tolley et al. (UC San Diego / UC Berkeley) · arXiv 2606.20549 source

설계 (design)와 제어 (control)를 공동 최적화하는 것은 거대한 조합론적 도전 과제입니다. 저자들은 각 후보 설계에 대해 복잡한 컨트롤러를 학습하는 대신, 제작 후의 단순한 정책 (손가락 끝 위치를 맞추는 역기구학 (inverse kinematics))을 사용하여 설계를 평가합니다. 일상적인 인간 손가락 끝 동작의 400만 프레임을 활용하여 목표 동작을 재현하도록 트리 구조의 숙련된 손 (tree-structured dexterous hand)을 최적화하며, 그 결과 범용 6-DOF 손을 포함한 여러 설계를 도출했습니다.

유희적 에이전트 로봇 학습: 먼저 "놀고", 그 다음에 과업 수행 · manipulation

체화된 코딩 에이전트 (embodied coding agent)가 공식적인 과업이 주어지기 전에 자유롭게 "놀면서" 기술을 축적하도록 허용하는 것은, 로봇 학습을 "지시 기반 (instruction-driven)"에서 "자율적 탐색 (autonomous exploration)"으로 전환시킵니다.

Junyi Zhang et al. · arXiv 2606.19419 source · HF 31↑

기존의 에이전트 로봇 (agentic robots)은 실행 가능한 코드 기반 정책 (Code-as-Policy)을 작성하고 시행착오를 통해 반복적으로 수정할 수 있지만, 여전히 작업 중심적이며 기술을 습득하기 위해 명시적인 지침이 필요합니다. 저자들은 다운스트림 작업 (downstream tasks) 이전에 지속적인 기술 학습 (continual skill learning)을 위해 자율 놀이 (autonomous play)를 사용하는 것을 제안합니다. RATs (Robot Agent Teams)는 놀이 중에 새롭고 학습 가능한 탐색 작업을 제안하고, 코드 기반 정책을 계획 및 실행하며, 진행 상황을 스스로 평가하고, 조밀한 단계별 피드백 (dense step-level feedback)을 통해 실패를 진단하고 재시도하며, 성공적인 실행을 테스트 시 재사용할 수 있는 영구적인 코드 기술 라이브러리 (code skill library)로 증류 (distilling)합니다.

오늘의 다른 논문들: 엔드투엔드 주행을 위한 셀프 플레이 확장 (Scaling Self-Play for End-to-End Driving) (Gigapixel 고처리량 시뮬레이터, 엔드투엔드 주행을 위한 순수 픽셀 셀프 플레이 학습, arXiv 2606.19641 source); 감각운동 세계 모델 (Sensorimotor World Models) (Schölkopf et al., JEPA 스타일의 잠재 세계 모델 (latent world model) + 표현 붕괴 (representation collapse)에 대응하는 역역학 규제화 (inverse dynamics regularization), arXiv 2606.20104 source); EquiVLA (최초의 일반적인 SO(2)-등변 VLA 프레임워크, arXiv 2606.19784 source); MemoryWAM (영구 메모리를 갖춘 효율적인 세계-행동 모델, arXiv 2606.20562 source); VLA 파인튜닝은 더 적은 레이어를 필요로 함 (Finetuning VLA Requires Fewer Layers) (π0/GR00T-N1.5의 훈련 없는 압축, arXiv 2606.20246 source); 하나의 데모는 천 개의 궤적만큼의 가치가 있다 (One Demo is Worth a Thousand Trajectories) (Toyota Research, 행동-시점 증강, arXiv 2606.19586 source); ENPIRE 에이전트 정책 자기 개선 논문 발표 (HF↑7, 이전에 보고됨).

오픈 소스 · 도구 · 벤치마크

· WorkBenchMark: RoboCup Smart Manufacturing League에서 영감을 받은 LEGO Duplo 조립 벤치마크로, 4단계 난이도에 걸친 400개의 작업, 오픈 보캐블러리 인지 (open-vocabulary perception), 그리고 "조립을 추론하기 위한 분해 (disassemble-to-infer-assembly)" 베이스라인을 포함합니다. 저자들은 이 계획 기반 (planning-based) 베이스라인이 모든 난이도 단계에서 최신 VLA (Vision-Language-Action) 모델들을 능가한다고 보고했습니다. 벤치마크, 시뮬레이션 환경 및 베이스라인은 오픈 소스로 공개될 예정입니다 (arXiv 2606.19358 source).

· CRAX: MuJoCo XLA (MJX)를 기반으로 한 안전한 강화학습 (safe RL) 벤치마크로, 벡터화 (vectorization) 및 하드웨어 가속을 통해 CPU 베이스라인 대비 약 100배의 속도 향상을 제공합니다. 6개의 환경과 3가지 에이전트 작업 유형을 포함합니다 (arXiv 2606.20376 source).

· ForEnt: 영국의 8개 삼림 지역에서 저가형 Unitree Go2를 사용하여 수집된 멀티모달 4족 보행 로봇 "함정 (entrapment)" 데이터셋으로, 11개 시퀀스에 걸쳐 약 1.7km를 커버하며, 특히 덩굴 엉킴과 같은 불안정성 및 실패 모드를 포착합니다 (arXiv 2606.19675 source).

II. Funding & Deals

Hyundai Motor × Boston Dynamics ｜ 인수 (완전 소유) ｜ ~$325M ｜ SoftBank 엑시트 (Exit) · 휴머노이드 ⚠️ 미디어 보도

Meiri Jingji Xinwen을 포함한 보도에 따르면, 현대자동차그룹은 SoftBank가 보유한 Boston Dynamics의 잔여 지분 약 9.65%를 약 3억 2,500만 달러에 인수하여 완전 자회사로 만들 계획입니다. 현대차그룹(정의선 회장 및 현대자동차, 기아, 모비스, 글로비스 포함)은 이미 90% 이상의 지분을 보유하고 있었으며, SoftBank는 2020년 매각 당시 합의된 풋 옵션 (Put Option)을 행사하고 있습니다. 이사회는 6월 22일경 해당 거래를 검토할 예정입니다. Boston Dynamics의 Atlas 휴머노이드 로봇은 2026년 양산될 계획이며, 초기 물량은 현대차 자체 공장과 Google DeepMind로 공급될 예정입니다. 이번 거래는 미국 IPO (기업공개)를 앞두고 지분 구조의 장애물을 제거하는 것으로 널리 해석됩니다. 출처: TipRanks 외 다수 source

일반적 직관 (General Intuition) ｜ 신규 라운드 (협상 중) ｜ ~$300M ｜ 기업 가치(Valuation) 20억 달러 초과 · 월드 모델 (world-model) ⚠️ 보도에 의함

FutureX · Physical AI Daily — Issue 33 (06/20)

요약

핵심 포인트

I. 연구 논문 (Research Papers)

오픈 소스 · 도구 · 벤치마크

II. Funding & Deals

댓글