형태를 외우지 말고 의도를 외워라——Cross-Embodiment Training이란 무엇인가

로봇이 "본 적 없는 세탁기"를 조작할 수 있는 이유와, 마인크래프트에 새로운 Mob을 추가해도 AI가 처음부터 다시 학습할 필요가 없는 이유는 완전히 동일한 원리로 설명할 수 있다.

서론

Physical AI의 세계에서는 지금 "Cross-Embodiment Training"이라는 개념이 급속도로 주목받고 있다.

한마디로 말하자면, 형태가 다른 로봇들의 데이터를 모아서 학습시킴으로써, 어떤 신체에도 전이(Transfer)될 수 있는 범용적인 "움직임"을 획득하는 기술이다.

하지만 "왜 미지의 신체나 미지의 물체로 전이될 수 있는가?"를 깊이 파고들면, Transformer의 이야기도, 데이터 스케일의 이야기도 아닌, 더 근본적인 철학에 도달하게 된다.

**"형태를 외우지 말고, 의도를 외워라."

이 기사에서는 마인크래프트의 Mob과 π₀(Physical Intelligence의 로봇)를 대비시키며, 그 본질을 3가지 테크닉으로 나누어 해설한다.

1. Cross-Embodiment Training의 본질

기존의 로봇 학습은 "한 대 전용"이었다.

로봇 A 전용 모델 → 로봇 A만 조작 가능
로봇 B 전용 모델 → 로봇 B만 조작 가능

새로운 로봇이 나올 때마다 데이터 수집과 학습을 처음부터 다시 해야 한다. 이는 게임 개발로 치면, 새로운 캐릭터를 추가할 때마다 AI를 풀 스크래치(Full-scratch)로 다시 만드는 상황과 같다.

Cross-Embodiment Training은 이를 근본적으로 바꾼다:

로봇 A의 데이터 ─┐
로봇 B의 데이터 ─┼─→ 공통 모델 → "잡으려는 의도"를 일반화
로봇 C의 데이터 ─┘
...

모델이 배우는 것은 "신체의 형태"가 아니라 "태스크(Task)의 의도"다.

그렇다면 "의도의 전이"는 어떻게 실현되는가? 여기에 3가지 테크닉이 있다.

2. 마인크래프트의 Mob으로 전체상 파악하기

구체적인 이야기로 들어가기 전에, 먼저 마인크래프트의 Mob을 사용하여 전체상을 정리해 보자.

마인크래프트에는 신체의 형태가 완전히 다른 Mob들이 공존하고 있다.

Creeper (사족 보행, 폭발 특화) -
Enderman (3블록 높이의 장신, 텔레포트) -
Skeleton (이족 보행, 활을 이용한 원거리 공격) -
Slime (구체, 분열 이동) -

이들은 모두 "신체의 형태가 다르다". 하지만 공통된 행동 목표를 가지고 있다——"플레이어를 감지하여 공격한다".

Cross-Embodiment 방식으로 학습시키면 다음과 같다:

Creeper의 데이터 ─┐
Enderman의 데이터 ─┼─→ 공통 모델 → "추적·공격 의도"를 일반화
Skeleton의 데이터 ─┘
...

새로운 Mob을 추가해도, 공통 모델이 "추적", "공격", "회피"의 의도를 전이해 준다.

그렇다면 왜 전이가 가능한 것일까? 여기서부터 3가지 테크닉 이야기가 시작된다.

3. 테크닉 ①: Affordance 표현——"무엇을 할 수 있는가"로 세상을 보기

이것이 가장 본질적인 원리다.

Affordance(어포던스)란 무엇인가:

물체의 형상 그 자체가 아니라, "그 물체가 허용하는 조작의 가능성"을 말한다.

문손잡이 → "돌릴 수 있음", "당길 수 있음"
버튼 → "누를 수 있음"
레버 → "당길 수 있음"
...

형태를 외우는 것이 아니라, "무엇을 할 수 있는가"를 외운다.

연구에서는 물체·액션·효과의 궤적을 단일한 잠재 벡터(Latent Vector)로 통합한 "어포던스 공간(Affordance Space)"을 구축하고, 여러 에이전트와 물체를 가로지르는 공유 표현(Affordance Equivalence)을 형성함으로써 서로 다른 로봇 간의 전이를 실현하고 있다.

마인크래프트로 말하면 다음과 같다:

Skeleton의 시점:
플레이어 → "사정거리 내라면 공격할 수 있음", "가까워지면 위험함"
벽 블록 → "엄폐물이 됨", "지나갈 수 없음"
...

같은 "벽 블록"이라도 신체에 따라 어포던스가 다르다. 역으로 말하면, 어포던스를 올바르게 배운다면 신체가 바뀌어도 "무엇을 해야 하는가"에 대한 판단은 전이될 수 있다.

π₀가 미지의 세탁기를 조작할 수 있었던 것도 바로 이 원리다:

학습된 데이터:
식기세척기 문을 열기 → "문은 당길 수 있는 것"
전자레인지 버튼 누르기 → "돌출부는 누를 수 있는 것"
...

형태를 외우지 않았기 때문에, 미지의 형태에도 대응할 수 있다. 이것이 역설적인 진실이다.

4. 테크닉 ②: Latent Space Alignment——"의도의 번역 사전" 만들기

Affordance(어포던스)가 「물체를 어떻게 보는가」의 문제라면, Latent Space Alignment(잠재 공간 정렬)는 「의도를 어떻게 공유하는가」의 문제다.

여러 가지 서로 다른 신체·행동 공간을 공통의 잠재 공간 (Latent Space)에 사영(Projection)하는 기술이다.

크리퍼의 행동 공간 ─┐ ┌─ 크리퍼의 동작으로 변환
엔더맨의 행동 공간 ─┼─→ 공통 잠재 공간 ─┤
스켈레톤의 행동 공간 ─┘ └─ 스켈레톤의 동작으로 변환

잠재 공간 안에서는 신체의 차이가 사라져 있다. 「도망친다」라는 의도는 모두에게 공통된 좌표를 가지며, 거기서부터 각각의 신체에 맞춘 출력으로 변환된다.

가전제품의 경우도 같은 구조다:

세탁기 조작 공간 ─┐ ┌─ 세탁기로의 동작
전자레인지 조작 ─┼─→ 공통 잠재 공간 ─┤
식기세척기 조작 공간 ─┘ └─ 식기세척기로의 동작

중요한 것은, 이 잠재 공간의 학습에는 「페어 데이터 (Pair Data, 같은 장면의 여러 로봇 영상)」가 반드시 필요하지 않다는 점이다. 적대적 학습(Adversarial Learning)이나 사이클 일관성 정규화(Cycle Consistency Regularization)를 사용하면, 대응 관계가 없는 데이터로부터도 공통 공간을 구축할 수 있다.

π₀의 Action Expert 구조와의 연결

π₀가 채택하고 있는 것도 바로 이 사고방식의 구현이다:

공유 Backbone (상황 이해·의도 판단) ← 모든 신체 공통
↓ ← 여기가 잠재 공간
Action Expert (출력 변환) ← 신체별로 분기

「도망친다」라는 의도는 공통이며, 크리퍼는 「네 발로 후퇴」, 슬라임은 「바운드하며 이탈」로 변환된다. 생각하는 뇌는 하나, 손발로 가는 신경 신호만 다를 뿐이다 —— 인간의 신경계와 같은 발상이다.

5. 테크닉 ③: Visual Transfer——「겉모습의 차이」를 메우기

세 번째 테크닉은 가장 구현에 가까운 이야기다.

로봇이나 캐릭터가 다르면, 카메라에서 보이는 「겉모습」도 다르다. 이것이 의외로 큰 장벽이 된다. 똑같은 「상자를 연다」라는 태스크(Task)라도, 스켈레톤의 팔과 엔더맨의 긴 팔은 카메라에 찍히는 영상이 완전히 다르다.

2024년 이후, 이를 해결하는 수법이 급속도로 발전했다.

Mirage 접근법 (크로스 페인팅)

미지의 로봇 (타겟)이 움직이고 있는 영상
↓
타겟을 마스크(Mask) 처리하여 지움
...

마인크래프트로 말하자면:

새 캐릭터 「알렉스」 (슬림 체형)를 움직이고 싶다
↓
알렉스의 겉모습을 「스티브」로 덮어쓰기하여 추론
...

Shadow 접근법 (세그멘테이션 마스크)

Mirage를 더욱 발전시킨 수법으로, 세그멘멘테이션 마스크(Segmentation Mask)를 사용하여 소스(Source)와 타겟(Target)을 합성한다. Mirage보다 2배 이상의 성능 개선을 달성했다.

한계와 구분 사용

신체 형태가 비슷함 (스티브 ↔ 알렉스, Franka ↔ UR5)
↓ Visual Transfer로 충분
신체 형태가 크게 다름 (스티브 ↔ 엔더맨)
...

6. 3가지 테크닉의 통합——π₀가 세탁기를 움직이기까지

3가지 테크닉을 통합하면, π₀가 미지의 세탁기를 움직이는 프로세스를 정확히 설명할 수 있다:

Step 1【Affordance 인식】
미지의 세탁기를 본다
→ 「여기는 당길 수 있는 것 (문)」「여기는 누를 수 있는 것 (버튼)」을 추론
...

3가지가 조합되어야 비로소 「미지」에 대한 대응이 가능해진다.

마인크래프트의 새로운 Mob 「워든」 (대형·특수 공격)을 추가하는 경우도 완전히 같다:

Step 1: 플레이어나 블록의 어포던스를 인식
Step 2: 「추적·공격」 의도를 기존 Mob의 잠재 공간으로부터 전이
Step 3: 대형 신체에 맞춘 시각 보정으로 궤적을 생성

7. 「공통 포맷」은 이미 존재한다

「그렇게 편리한 공통 기술 포맷이 실제로 존재하는가?」라는 의문은 당연하다.

이미 존재한다.

Google DeepMind가 주도하는 Open X-Embodiment (OXE) 프로젝트가 그것이다. 21개 기관·60개 데이터셋·22종류의 로봇 데이터를 7차원 엔드 이펙터(End-Effector) 포맷으로 통일하고 있다.

[x 이동, y 이동, z 이동, roll, pitch, yaw, 그리퍼 개폐]

RT-2는 여기서 한 발 더 나아가 이를 텍스트 토큰(Token)으로 변환한다:

액션 예시: 「1 128 91 241 5 101 127」

언어와 동작을 동일한 토큰 공간으로 통일함으로써, VLM (대규모 시각-언어 모델)의 파인튜닝(Fine-tuning)을 통해 로봇 제어를 가능하게 한다.

마인크래프트로 말하자면:

[전후 이동, 좌우 이동, 점프, 방향 3축, 공격/액션]

Creeper(크리퍼)든 Enderman(엔더맨)이든, 모든 Mob(몹)의 행동이 이 7차원으로 변환된다.

다만 솔직히 말하자면, 현 상태는 "대략 7차원으로 맞췄다" 수준이며 완벽하지는 않다. 좌표계, 절대값, 상대값이 혼재되어 있다는 문제가 남아 있다. 도감은 있지만, Mob마다 페이지의 포맷이 미묘하게 다른 상태다. 이 "완전한 공통 포맷의 확립"이 현재 가장 뜨거운 연구 영역 중 하나다.

8. 이것을 PaaS로 만든다면 어떻게 될까

이 기술을 게임 회사를 위한 클라우드 서비스로 제공하는 것을 생각해 보자.

핵심 가치 제안

"새로운 캐릭터를 추가해도 AI 학습 비용이 거의 제로가 된다"

기존:
새로운 Mob 추가 → AI를 처음부터 설계 및 학습 (수 주 ~ 수 개월)
Cross-Embodiment PaaS:
...

아키텍처 이미지

고객의 게임 엔진 (Unity / Unreal)
↓ 경량 SDK
┌──────────────────────────────────────┐
...

차별화 포인트: 데이터가 섞일수록 똑똑해진다

Creeper 데이터만 사용 → Creeper 수준의 지능
모든 Mob의 데이터를 혼합 → Affordance(어포던스) 공간이 풍부해지며 모든 Mob의 성능이 상향 평준화
여러 게임 회사가 참여 → 세계 모델 (World Model)의 정밀도가 비약적으로 향상

GPU 사업 · PaaS 사업 · 모델 사업이 삼각형 형태로 루프를 형성하는 구조가 된다.

요약

Cross-Embodiment Training을 뒷받침하는 3가지 테크닉을 정리하자.

테크닉	하는 일	마인크래프트로 말하면	가전제품으로 말하면
Affordance 표현	물체를 "할 수 있는 것"으로 인식	블록을 "지나갈 수 있음/없음"으로 봄	문을 "당길 수 있음"으로 인식
...

이 세 가지가 결합됨으로써, 미지의 신체라도, 미지의 물체라도 전이(Transfer)할 수 있게 된다.

$\pi_0$가 미지의 세탁기를 작동시킬 수 있었던 이유와, 마인크래프트에 새로운 Mob을 추가해도 AI가 처음부터 다시 학습할 필요가 없는 이유는 같다.

"형태를 외우지 마라, 의도를 외워라. 효과를 외워라."

이것이 Cross-Embodiment Training의 철학이며, Physical AI가 현재 나아가고 있는 방향이다.

Insights

형태를 외우지 말고 의도를 외워라——Cross-Embodiment Training이란 무엇인가: 마인크래프트의 Mob이 알려주는

요약

핵심 포인트