
잠재 공간 세계 모델은 로봇 학습의 무엇을 바꿀까 - 무계동력 MWA를 관련 논문에서 읽어내기
요약
로봇 학습의 한계를 극복하기 위해 픽셀이 아닌 잠재 공간(Latent Space)에서 물리적 인과관계를 예측하는 세계 모델(World Model) 기술을 분석합니다. 무계동력(Wujie Dongli)의 MWA 사례를 통해 VLA 모델의 약점을 보완하는 잠재 액션 및 강화 학습 결합 방식을 설명합니다.
핵심 포인트
- 기존 VLA 모델은 물리적 인과관계 이해 부족으로 환경 변화에 취약함
- 픽셀 예측 대신 잠재 공간에서 미래를 예측하여 효율성 증대
- 라벨 없는 비디오를 활용하는 잠재 액션(LAPA) 메커니즘 활용
- 실패 데이터를 학습에 포함하여 로봇의 강건성 확보
사람이 컵을 들어 올릴 때, 뇌는 무의식적으로 무게를 추정하고 물 표면의 흔들림을 예상하며, 옆 유리잔을 피하는 궤도를 선택합니다. 이때 표면의 무늬나 빛의 반사 같은 정보는 거의 사용하지 않고, '얼마만큼의 힘으로 잡아야 흘리지 않을까'라는 인과관계만을 추출해냅니다. 이러한 물리적 직관을 어떻게 습득하게 할 것인가가 로봇에게 오랜 난제였습니다.
최근 설립 1년 차 스타트업 무계동력(Wujie Dongli)이 이 문제에 대한 독자적인 접근 방식을 발표하며 중국 테크 미디어에서 화제가 되었습니다. 발표 자체는 홍보 색채가 짙습니다. 다만, 그 배경에 깔린 기술의 방향성은 현재 구현 지능(embodied AI, 신체를 가진 AI) 연구에서 실제로 진행되고 있는 흐름과 일치합니다. 본고에서는 보도 자료의 수치를 따라가기보다, 그 토대가 되는 논문과 설계 사상을 정리해보고자 합니다.
대략적으로 말하자면, 핵심은 세 가지입니다. 픽셀 공간에서의 예측을 중단하는 것, 동작 라벨에 대한 의존성을 끊는 것, 그리고 학습 데이터를 성공 사례로만 구성하지 않는 것입니다. 순서대로 살펴보겠습니다.
이 글에서 알 수 있는 내용
- 모방 학습 기반의 VLA가 현장에서 무너지는 이유 - 픽셀이 아닌 잠재 공간에서 미래를 예측하는 발상(DINO-WM / LaDi-WM) - 라벨 없는 비디오를 활용하는 잠재 액션(LAPA)의 메커니즘 - 오차 누적을 줄이는 청크 단위 예측과 순역 동역학 상호 점검 - 실패 데이터를 활용하는 방법 - **강화 학습(RL)**과 벤치마크 결과의 적절한 해석
구현 지능이나 로봇 학습에 익숙하지 않은 분도 읽을 수 있도록 작성했습니다.
왜 VLA는 현장에서 무너지기 쉬운가
최근 몇 년간 로봇 학습을 이끌어온 것은 **VLA(Vision-Language-Action)**라고 불리는 분야입니다. 시각과 언어를 이해하고 인간의 지시문을 동작으로 변환합니다. NVIDIA의 GR00T N1 (arXiv:2503.14734)이 대표적인 예로, 환경을 해석하는 System 2(시각/언어)와 동작을 생성하는 System 1(확산 트랜스포머)을 결합한 구성을 취합니다.
하지만 모방 학습에 강하게 의존하는 VLA에는 공통된 약점이 있습니다. 인간의 모범 궤도를 재현할 수는 있어도, 그 이면에 있는 물리적 인과관계까지는 배우지 못했다는 점입니다. 답을 암기해서 임하는 시험과 같아서, 문제가 조금이라도 모범과 다르면 대응할 수 없게 됩니다. 조명이 바뀌거나 대상물의 위치가 몇 센티미터만 달라져도 동작이 붕괴되는 경우가 드물지 않습니다.
인간이 정형화되지 않은 작업을 수행할 수 있는 것은 세계에 대한 직관적인 추론을 갖추고 있기 때문입니다. 역으로 말하면, 그 토대가 없으면 아무리 방책(policy)을 학습해도 성능의 상한선은 한계에 부딪힙니다.
무계동력이 취한 방향은 바로 이 지점을 정면으로 다루는 것입니다. 즉, 잠재 공간 세계 모델과 강화 학습의 조합입니다. 세계 모델이 물리 법칙과 인과관계를 배워 '다음에는 무엇이 일어날지'를 예측하고, 강화 학습이 그 예측을 시행착오와 보상을 통해 구체적인 실행으로 구현합니다. 먼저 인과를 이해하게 한 다음, 그 위에서 행동을 학습시키는 것입니다. 순서상으로는 이쪽이 더 합리적이라는 입장입니다.

그림 출처: 양자위의 무계동력 MWA 소개 기사 (무계동력 제공 그림)
픽셀이 아닌 잠재 공간에서 미래를 예측하다
세계 모델을 만들 때 가장 먼저 결정해야 할 것은 '모델에 무엇을 예측하게 할 것인가'입니다.
기존의 많은 방법들은 미래를 픽셀 공간에서 예측하려고 합니다. 하지만 비디오로 학습시키면, 손이 컵을 잡는 모습뿐만 아니라 배경의 빛 떨림이나 노이즈, 바닥의 질감까지 함께 예측하게 되어 계산 자원의 상당 부분이 태스크와 무관한 정보에 소모됩니다.
'픽셀을 재구성하지 않는다'는 발상은 이미 연구계에서 정착되고 있습니다. DINO-WM (ICML 2025)은 DINOv2로 사전 학습된 시각 특징 위에서 미래를 예측하여, 픽셀을 전혀 복원하지 않고도 제로샷 계획이 가능하게 했습니다. LaDi-WM (arXiv:2505.11528)은 미래 상태를 잠재 공간 위의 확산으로 예측합니다. 둘 다 '이미지로서의 모습'이 아니라 '상태의 전이'를 예측 대상으로 삼고 있다는 점이 공통적입니다.
무계동력의 MWA도 같은 계보에 있습니다. 예측은 일관되게 공유된 하나의 잠재 공간 안에서만 진행하며, 픽셀 단위 계산을 생략합니다. 남기는 것은 '어떻게 움직여야 물체가 어떻게 변할지'라는 태스크에 직접적으로 효용하는 정보뿐입니다.
잠재 공간(Latent Space)에서 예측한다고 할 때, 그 안에서 '동작'을 어떻게 표현할 것인가. 이것이 다음 과제가 됩니다.
기존의 방법은 명시적인 동작 공간(Action Space)에 의존했습니다. 암(Arm) 끝단의 좌표나 관절의 궤도를 인간이 사전에 라벨링(Labeling)해 두어야 했습니다. 대부분 원격 조작을 통해 수집하기 때문에, 데이터의 규모와 다양성이 거기서 한계에 부딪히곤 했습니다.
MWA가 사용하는 것은 **잠재 액션(Latent Action)**이라는 표현입니다. 영상 속에서 '물체가 힘을 받아 위치나 상태가 어떻게 변화했는지'를 고차원 특징(High-dimensional Feature)으로서 직접 추상화합니다. 사람의 손을 거친 동작 라벨이 필요하지 않다는 점이 핵심입니다.
이러한 사고방식에는 명확한 선행 연구가 있습니다. NVIDIA와 KAIST 등이 발표한 LAPA(Latent Action Pretraining from Videos, arXiv:2410.11758)입니다. LAPA는 먼저 VQ-VAE 계열의 기법을 통해 인접 프레임 간의 이산적인 잠재 액션을 비지도 학습(Unsupervised Learning)으로 학습하고, 이어서 '관측과 지시문으로부터 잠재 액션을 예측하는' 모델을 사전 학습(Pre-training)합니다. 마지막으로 소량의 실기(Real-world) 데이터를 사용하여 잠재 액션을 실제 로봇의 동작에 대응시킵니다. 논문에서는 동작 라벨을 사용하여 학습했던 당시 최고 성능의 VLA를 실제 세계 태스크에서 능가했다고 보고되었습니다. 인간의 작업 영상만으로 학습시켜도 로봇으로의 전이(Transfer)가 확인되었다고 합니다.

도판 출처: Ye et al., "Latent Action Pretraining from Videos" (arXiv:2410.11758)
MWA의 학습 측 아키텍처(Architecture)도 이 계보 위에 구축되어 있습니다. 아래 그림에서는 RGB-D 입력을 DINO나 Q-Former로 인코딩(Encoding)하고, 잠재 액션을 통해 미래 프레임을 재구성(Reconstruction)하면서 L1이나 코사인 손실(Cosine Loss)로 학습시키는 구성을 볼 수 있습니다.

도판 출처: 양자위의 무계동력 MWA 소개 기사 (무계동력 제공 도판)
잠재 액션의 장점은 명쾌합니다. 동작 라벨이 없는 인터넷상의 방대한 영상을 그대로 학습에 사용할 수 있습니다. 구체화된 지능(Embodied AI)의 최대 제약은 일관되게 데이터의 양과 다양성이었으므로, 이 효과는 매우 크다고 할 수 있습니다.
1스텝 예측의 한계와, 묶어서 예측한다는 발상
지금까지 픽셀 예측과 동작 라벨이라는 두 가지 제약을 제거했습니다. 하지만 순방향(Forward)·역방향(Backward) 다이내믹스(Dynamics)를 사용하는 세계 모델에는 또 하나의 까다로운 문제가 남아 있습니다. 1스텝씩(그 순간만을) 예측하는 시간적 근시(Temporal Myopia)입니다.
한 걸음씩만 예측하면 긴 시계열의 인과관계를 조망할 수 없습니다. 각 스텝의 미세한 예측 오차가 다음 입력으로 이어지며 연쇄적으로 쌓여갑니다. 절차가 긴 작업에서는 이 오차가 최종적으로 동작의 파탄으로 이어집니다.
MWA의 핵심적인 고안은 바로 여기에 있다고 무계동력은 설명합니다. 역다이내믹스(Inverse Dynamics)를 청크(Chunk, 한 덩어리) 단위로 다루도록 변경하여, 그 출력 단위 자체를 새로 만듭니다. 10초가 넘는 영상 시퀀스에서 연속되는 여러 스텝 분량의 잠재 액션(Latent Action Chunk)을 한꺼번에 예측하고 출력합니다. 1스텝씩의 예측을 하나의 연속된 궤도(Trajectory) 예측으로 대체함으로써, 오차의 연쇄적인 증폭을 억제하는 것이 목적입니다.
순방향과 역방향의 상호 체크
잠재 공간 안에서 예측한 미래를 어떻게 검증할 것인가. MWA는 두 종류의 추론을 동시에 실행합니다.
- 역다이내믹스(IDM): 결과로부터 원인을 추적한다. 어떤 결과에 대해 그것을 일으킨 동작을 역산합니다.
- 순다이내믹스(FDM): 원인으로부터 결과를 도출한다. 어떤 동작을 입력으로 하여 환경이 다음에 어떻게 변할지를 예측합니다.
이 둘은 독립적으로 움직이는 것이 아니라, 서로의 출력을 대조합니다. 역다이내믹스가 내놓은 동작 안을 순다이내믹스가 시뮬레이션으로 검증하고, 순다이내믹스가 내놓은 환경 변화를 역다이내믹스가 사전 학습을 통해 얻은 물리적 지식과 대조합니다. 양자를 왕복시킴으로써 인과 추론의 정밀도를 높여갑니다.
구체적인 사례로 보면 이해하기 쉽습니다. 역할은 세 가지입니다.
- Policy Head (직관): 우선 동작 안을 빠르게 제시합니다.
- FDM (예측역): 그 동작으로 인해 무엇이 일어날지를 시뮬레이션합니다.
- IDM (검증역): 일어난 결과로부터 원인이 된 동작을 역산합니다.
책상을 닦는 장면을 가정해 봅시다. 책상 위에는 물방울이 있고, 바로 옆에는 깨지기 쉬운 유리잔이 놓여 있습니다.
- Policy Head가 동작 안을 제시합니다. "천을 오른쪽에서 왼쪽으로 움직여 닦는다".
- FDM이 현재의 잠재 특징(Latent Feature)과 이 동작으로부터 다음 상태를 예측합니다. 결과는 "유리잔을 쓰러뜨린다"입니다.
- 이 바람직하지 않은 결과가 현재의 특징과 함께 IDM에 전달됩니다. IDM은 유리잔을 쓰러뜨리는 원인이 된 동작 성분을 특정합니다.
- Policy Head는 이를 바탕으로 경사 하강법의 역전파(Backpropagation)를 통해 방책(Policy)을 그 위험한 동작으로부터 멀어지게 합니다. 실제로 물체에 닿기 전에 인과 관계를 따라 충돌을 회피합니다.
반대의 경우도 있습니다. 어떤 동작을 FDM이 예측한 결과, "물방울이 깨끗하게 닦이는" 상태가 되었다고 가정해 봅시다. 그러면 IDM은 전후의 변화로부터 더 적절한 진폭을 가진, 낭비가 적은 잠재 액션(Latent Action)을 역산하며, 방책은 그 방향으로 나아갑니다.
순방향으로 결과를 예측하고, 역방향으로 원인을 거슬러 올라갑니다. 이 왕복 과정을 통해 MWA는 실제로 움직이기 전 단계에서 "피해야 할 동작"과 "취해야 할 동작"의 대략적인 범위를 결정해 둡니다. 학습 데이터를 확실한 실행으로 연결하는 메커니즘이라고 할 수 있습니다.
"정답만 있는" 데이터로는 강화학습이 진행되지 않는다
세계 모델(World Model)로 인과 관계의 이해를 구축했다면, 다음은 그것을 현장에서 무너지지 않는 실행력으로 바꾸는 단계입니다. 무계동력(MWA)은 세계 모델을 처음부터 강화학습(RL)에 친숙한 형태로 설계했습니다. 물리적 인과 모델링, 강화학습을 통한 시행착오, 한계의 갱신 — 이 루프를 가상 환경 내에서 고속으로 회전시킵니다.
여기서 업계 공통의 과제가 되는 것이 데이터의 편향(Bias)입니다. 현재의 구체 지능(Embodied AI)용 데이터셋은 대부분 성공 사례로 채워져 있으며, 실패 사례는 거의 포함되어 있지 않습니다. 모범 답안만 읽어서는 자신의 답안 중 어디가 감점 대상인지 알 수 없는 것과 마찬가지로, "실패했다"라거나 "한 끗 차이였다"라는 사례가 없다면 모델은 자신의 동작이 얼마나, 어느 방향으로 어긋나 있는지를 측정할 수 없습니다. 보상(Reward) 신호가 모호해지고 방책의 최적화가 진행되지 않게 됩니다.
무계동력의 대응책은 AnyPhys라는 실패 사례 중심의 데이터 체계입니다. 성공 사례뿐만 아니라 명확한 실패, 균형을 잃을 뻔한 경계적인 사례, "한 끗 차이로 성공"할 뻔한 준최적(Sub-optimal) 사례를 성공 사례와 섞어서 다룹니다. 이미 수만 건 규모의 실패·불안정·경계 사례를 수집했다고 합니다.
요점은 성공·실패·준최적·경계를 자동으로 판별하는 메커니즘을 마련했다는 것입니다. 이를 통해 추가적인 수동 라벨링 없이도 결점이 있는 데모 데이터도 학습에 재사용할 수 있습니다. 예를 들어 정밀한 삽입 작업에서는 로봇의 자세로부터 공간적 위치 관계를 구성하고, 선단의 3차원 거리를 이동 비용(Movement Cost)으로 삼아 목표까지의 최단 경로를 구합니다. 남은 거리를 통해 진척도를 수치화하고, 전진·후퇴·정체를 구분하여 자동으로 채점 및 분류합니다.

도판 출처: 양자위(Quantum Position)에 의한 무계동력 MWA 소개 기사 (무계동력 제공 도판)
오프라인 모방 학습(Imitation Learning)과 온라인의 조밀한 보상(Dense Reward) 모두에 대응하며, 노이즈가 많은 데이터 조건에서는 성공률이 최대 5배 높아졌다고 보고했습니다.
벤치마크 결과를 어떻게 읽을 것인가
무계동력은 중국과학원 자동화연구소의 심층 강화학습 팀과 공동으로 잠재 공간의 세계 모델인 MWA - WALA를 개발하였으며, RoboCasa GR1 TableTop에서 평균 성공률 **75.2%**를 기록하며 1위를 주장하고 있습니다. NVIDIA의 GR00T-N1.6 등을 상회했다고 합니다.

도판 출처: 양자위(Quantum Position)에 의한 무계동력 MWA 소개 기사 (무계동력 제공 도판)
이 부분은 내용을 나누어 살펴볼 필요가 있습니다.
- RoboCasa는 UT Austin이 2024년에 공개한 대규모 시뮬레이션 기반으로, 생성형 AI로 만든 다양한 주방 환경을 특징으로 합니다 (robocasa.ai).
- GR1 Tabletop 서브셋은 Fourier GR1 휴머노이드(상반신·양팔)를 이용한 24종의 테이블 위 Pick & Place 작업입니다 (GitHub). 조명의 무작위화(Randomization), 혼란스러운 물체 배치, 대상물의 크기 변화와 같은 조건을 추가하여 불확실한 환경에서의 일반화 성능을 측정하도록 설계되었습니다.
- 보고된 2위와의 차이는 +2.4포인트입니다. 다단계 연속 작업, 좁은 장소에서의 꺼내기, 흩어진 물체의 정밀한 피킹(Picking) 등의 항목에서 특히 강세를 보였다고 합니다.
주의해야 할 점은 이것이 시뮬레이션상의 평가라는 점입니다. RoboCasa는 유력한 벤치마크(Benchmark)이지만, 여기서의 1위가 곧바로 실기기 및 실제 환경에서의 우위를 의미하는 것은 아닙니다. +2.4포인트라는 차이도 헤드라인의 "1위"라는 단어만큼 크지는 않습니다. 반면, 라벨 없는 데이터(Unlabeled data)를 통한 일반화(Generalization)가 효과를 발휘하고 있다는 주장은 LAPA나 DINO-WM 계열의 지견과도 일치하며, 기술적으로는 납득할 수 있는 부분입니다.
요약: 무엇이 본질이며, 무엇을 감안해야 하는가
엔지니어의 관점에서 정리하면 다음과 같습니다.
본질적인 부분: 픽셀(Pixel)이 아닌 잠재 공간(Latent space)에서 예측하는 것, 라벨 없는 영상을 잠재 액션(Latent action)으로 활용하는 것, 실패 데이터를 강화학습 (RL)에 포함하는 것. 이 세 가지 점은 현재의 구체 지능(Embodied Intelligence) 연구가 실제로 나아가고 있는 방향과 일치합니다. LAPA, DINO-WM, LaDi-WM, GR00T와 같은 공개 연구들이 동일한 지도 위에 놓여 있습니다. -
감안해서 읽어야 할 부분: "세계 최초", "세계 제일"과 같은 표현은 홍보의 색채가 짙습니다. 액션 청킹 (Action chunking)도, 순역방향 양방향 다이내믹스(Dynamics)도 요소 단독으로는 선행 연구가 존재합니다. 신규성은 오히려 이러한 요소들의 조합과 완성도에 있다고 보는 것이 타당할 것입니다. -
진정으로 질문받고 있는 것: 데모 단계는 끝났으며, 평가 축은 "실제로 작업을 수행하여 납품할 수 있는가"로 옮겨가고 있습니다. 무계동력이 걸고 있는 것은 더 근본적인 명제입니다. 태스크를 하나씩 가르치는 것보다, 물리 법칙 그 자체를 이해시키는 것이 결과적으로 일반화에 유리하다는 것입니다. 중력이나 마찰, 충돌을 이해한 "신체를 가진 지능"은 상황마다 일일이 가르치지 않아도 스스로 학습해 나갈 수 있다는 사고방식입니다.
범용 구체 지능에 이르는 길로서, 이것은 아마도 가장 어려운 부류의 접근 방식일 것입니다. 다만, 가장 논리적인 접근 방식이기도 합니다. 발표된 수치에 휘둘리지 않고, 그 밑바탕에 깔린 설계 철학을 살펴볼 가치는 충분하다고 생각합니다.
관련 링크
- LAPA: Latent Action Pretraining from Videos ― arXiv:2410.11758
- GR00T N1: An Open Foundation Model for Generalist Humanoid Robots ― arXiv:2503.14734
- DINO-WM: World Models on Pre-trained Visual Features ― ICML 2025
- LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation ― arXiv:2505.11528
- RoboCasa / GR1 Tabletop Tasks ― robocasa.ai ・ GitHub
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기