물리적 AI (Physical AI)의 제한 요인은 연산량(Compute)이나 아키텍처(Architecture)가 아니라 데이터입니다

"문제의 핵심은 여전히 ... 로봇 데이터, 즉 이러한 물리적 상호작용 데이터가 ... 단지 제한적이라는 것입니다. 인터넷만큼 방대하지 않습니다."

-- Kanishka Rao, Google DeepMind 로보틱스 디렉터

지난 포스트에서 우리는 VLA(Vision-Language-Action) 모델이 아키텍처 측면에서 잘못되었으며, 비디오 월드 모델(Video World Models)이 로보틱스의 미래라는 Jim Fan의 주장을 다루었습니다. 이는 설득력 있는 논지입니다. 하지만 어떤 아키텍처가 승리하든 상관없이 발생하는, 더 조용하고 근본적인 문제가 있습니다.

로보틱스가 데이터 장벽(Data Wall)에 부딪히고 있습니다.

연산량의 과잉 (The compute overhang)

Epoch AI의 분석에 따르면, 가장 큰 로봇 조작(Robotic Manipulation) 모델들이 사용하는 학습 연산량(Training Compute)은 다른 도메인의 프런티어 AI(Frontier AI) 모델들이 사용하는 연산량의 약 1%에 불과한 것으로 나타났습니다. 이는 연구소들이 더 많은 GPU를 감당할 수 없어서가 아닙니다. 이 모델들 중 상당수는 지구상에서 가장 큰 언어 모델을 학습시키는 동일한 연구소에서 개발되었기 때문입니다. 이러한 격차가 존재하는 주된 이유는 모델에 공급할 데이터가 충분하지 않기 때문입니다.

Training compute for robotic manipulation models vs frontier AI models

시사점: 데이터가 따라잡기를 기다리며 엄청난 양의 연산량이 유휴 상태로 남아 있습니다. 만약 데이터 제약이 완화된다면, 성능 향상은 빠르게 이루어질 수 있습니다.

격차는 얼마나 큰가?

규모의 문제를 체감하기 위해 비교해 보겠습니다:

언어 모델 (Language models): 인터넷에서 수집한 수조 개의 토큰(Tokens)으로 학습합니다.
Open X-Embodiment: 가장 큰 오픈 로보틱스 데이터셋으로, 22가지 로봇 유형에 걸쳐 100만 개 이상의 에피소드(Episodes)를 보유하고 있습니다.
DROID: 가장 일관된 단일 체화(Single-embodiment) 데이터셋으로, 564개의 실제 장면에서 76,000개의 에피소드를 보유하고 있습니다.
Scale AI의 Physical AI Data Engine: 100,000시간 이상의 실제 운영 데이터를 수집했습니다. 이는 인상적인 수치이지만, 언어 모델이 소비하는 양에 비하면 여전히 몇 자릿수(Orders of magnitude)나 낮은 수준입니다.

인터넷은 언어 모델(Language models)에 학습 데이터를 제공했습니다. 로보틱스(Robotics)에는 그에 상응하는 것이 없습니다. 웹에서 물리적 상호작용 데이터(Physical interaction data)를 단순히 스크래핑(Scrape)할 수는 없습니다. 모든 궤적(Trajectory)은 실제 환경에서 실제 사물을 수행하는 실제 로봇(또는 센서를 착용한 실제 사람)을 필요로 합니다.

이 병목 현상이 아키텍처와 무관한 이유

어떤 아키텍처(Architecture)를 선택하든 데이터의 벽(Data wall)에 부딪히게 됩니다.

오늘날 VLA(Vision-Language-Action) 모델은 주로 원격 조작(Teleoperation) 데이터에 의존하고 있는데, 이는 양이 제한적이고 수집 비용이 많이 듭니다. 월드 액션 모델(World action models) 역시 마지막 단계(Last mile)를 위해서는 실제 세계의 데이터가 필요합니다. Ego-Scale의 경우, 21,000시간의 비디오 사전 학습(Video pre-training)을 거친 후에도 50시간의 모션 캡처 장갑 데이터와 4시간의 원격 조작 데이터가 필요합니다. 시뮬레이션(Simulation)은 단일 시연(Demonstration)을 수천 개의 합성 변형(Synthetic variations)으로 늘릴 수 있지만, 누군가는 여전히 그 첫 번째 시연을 수행해야 하며, 심투리얼 갭(Sim-to-real gap)은 여전히 활발한 연구 과제로 남아 있습니다.

돌파를 위한 네 가지 전략

1. 무차별적 원격 조작 (Brute-force teleoperation)

사람이 원격으로 로봇을 조작하면, 로봇이 그 시연으로부터 학습합니다. 고품질의 데이터이지만, 원격 조작은 로봇당 하루 24시간이라는 상한선이 있으며, 실제로는 이보다 훨씬 낮습니다.

2. 1인칭 시점 인간 비디오 (Egocentric human video)

YouTube 튜토리얼이나 머리 장착 카메라와 같은 1인칭 시점(First-person) 인간 비디오로부터 학습하여 그 지식을 로봇으로 전이(Transfer)합니다. 데이터는 거대한 규모로 존재하지만, 체현 격차(Embodiment gap)가 실재합니다. 즉, 비디오는 힘(Force)이나 관절 각도(Joint angles)를 기록하지 않습니다.

EgoMimic은 Meta의 Project Aria 글래스에서 얻은 인간의 1인칭 시점(Egocentric) 데이터가 동일한 양의 원격 조작(Teleoperation) 데이터보다 정책(Policy) 성능에 더 많이 기여할 수 있음을 발견했습니다. 하지만 Data Utilization Law 논문에 따르면 그 교환 비율은 가혹합니다. 도메인 내(In-domain) 성능 측면에서 인간의 비디오 샘플 약 10개는 단 하나의 원격 조작 데이터 포인트가 주는 이점을 상쇄할 수 있습니다. 인간의 비디오는 일반화(Generalization)에는 도움이 되지만 정밀도(Precision)는 해칠 수 있습니다.

NVIDIA의 Ego-Scale은 1인칭 시점 사전 학습(Egocentric pre-training)을 사용한 기민성을 위한 신경 스케일링 법칙(Neural scaling laws for dexterity)을 보여주었으며, 이는 이 접근 방식이 유망하다는 가장 강력한 신호입니다.

3. 합성 데이터(Synthetic data)와 월드 모델(World models)

더 많은 실제 데이터를 수집하는 대신, 데이터를 생성하십시오. NVIDIA의 Cosmos는 물리적으로 타당한 합성 학습 시나리오를 생성할 수 있습니다. Tesla의 신경 월드 시뮬레이터(Neural world simulator)는 Optimus를 학습시키기 위해 FSD 이면에 있는 것과 동일한 아키텍처를 사용합니다.

4. 대규모 실세계 파트너십

환경을 시뮬레이션하는 대신, 실제 환경에 접근하십시오. Figure AI는 Brookfield(100,000 가구 규모)와 파트너십을 맺어 실제 가정에서의 조작(Manipulation) 데이터를 확보했습니다. Scale AI는 Universal Robots와 파트너십을 맺어 산업용 로봇 팔에 데이터 수집 기능을 직접 내장했습니다.

이 네 가지 전략은 모두 동시에 진행되고 있으며, 어느 누구도 단 하나에만 도박을 걸지 않습니다. 데이터 문제는 실제 데이터와 합성 데이터, 원격 조작과 1인칭 시점 데이터를 혼합한 하이브리드 파이프라인(Hybrid pipelines)을 통해 해결될 가능성이 매우 높습니다.