Physical AI에도 스케일링 법칙(Scaling Laws)이 등장했다. 이제 경쟁의 양상이 완전히 달라졌다.

NVIDIA는 이번 주 로봇의 정교함(dexterity)에 대한 첫 번째 스케일링 법칙(scaling law)을 발견했습니다. Apache 2.0 라이선스, BYD의 20,000대 규모 추진, 그리고 4억 달러 규모의 파운데이션 모델(foundation model) 투자와 맞물려, Physical AI는 방금 하나의 임계점을 넘었습니다.

통계	설명
2배	훈련 데이터가 1,000시간에서 20,000시간으로 증가할 때 조작(manipulation) 성공률이 두 배로 증가 (GR00T N1.7)
...

Physical AI가 LLM과 동일한 규칙을 따른다는 것이 증명된 이번 주

머신러닝(machine learning)에서 스케일링 법칙(scaling law)은 한 가지를 의미합니다. 더 많은 데이터와 컴퓨팅 자원(compute)이 예측 가능한 방식으로 더 나은 결과를 만들어낸다는 것입니다. 이것이 GPT-2가 3년 만에 GPT-4가 된 이유입니다. 또한 모든 주요 AI 연구소들이 이제 더 나은 아키텍처(architecture)를 만드는 것보다 더 큰 데이터셋을 구축하는 경쟁에 뛰어드는 이유이기도 합니다.

이번 주, NVIDIA는 로봇의 정교함(dexterity)에 대한 첫 번째 스케일링 법칙(scaling law)을 발표했습니다. 이 발견은 6월 9일 완전한 Apache 2.0 라이선스로 공개된 GR00T N1.7과 함께 나왔습니다. 실세계 비디오 훈련 데이터가 1,000시간에서 20,000시간으로 늘어남에 따라 조작(manipulation) 성공률이 두 배로 증가했습니다. 이 모델은 30억 개의 파라미터(parameters)를 보유하고 있으며, 20,854시간의 1인칭 시점(egocentric) 비디오로 구성된 EgoScale 데이터셋으로 학습되었습니다. 또한 비용이 많이 드는 수천 시간의 원격 조종(teleoperation)을 필요로 하지 않습니다.

이 단 하나의 결과가 분야 전체의 궤적을 바꿉니다. Physical AI는 이제 더 많은 데이터가 도움이 되기를 막연히 희망할 필요가 없습니다. 이제는 그 효과가 어느 정도인지 정확히 알게 되었습니다.

오픈 소스 파운데이션 모델이 로보틱스의 현실이 되다

이번 주에 공개된 두 모델은 구조적 변화를 예고합니다. Apache 2.0 기반의 GR00T N1.7과 Hugging Face의 LeRobot 팀이 개발한 SmolVLA가 그 예입니다. SmolVLA는 4억 5천만 개의 파라미터(parameters)를 가지며 단일 소비자용 GPU에서 구동되면서도 표준 벤치마크에서 OpenVLA와 대등한 성능을 보여줍니다.

배경을 설명하자면, 로봇 파운데이션 모델(robot foundation models)의 폐쇄형(closed-source) 시대는 2023년 이전 LLM의 폐쇄형 시대와 매우 흡사했습니다. 막대한 자금을 보유한 소수의 연구소들이 독점적인 API와 값비싼 라이선스 뒤에 최고의 모델들을 숨겨두었습니다. 언어 AI 분야에서 오픈 웨이트(open weights)로의 전환은 18개월 만에 특화된 파인튜닝(fine-tunes), 다운스트림 제품(downstream products), 그리고 배포 도구(deployment tooling)의 폭발적인 증가를 불러왔습니다.

이제 물리적 AI(physical AI)에서도 동일한 역학 관계가 나타나기 시작했습니다. 단 하나의 GPU와 GitHub 계정을 가진 공장 엔지니어가 이제는 1년 전의 독점적 베이스라인(baselines)을 능가하는 조작 모델(manipulation model)을 실행할 수 있습니다. 이것은 사소한 업데이트가 아닙니다. 이것은 플랫폼의 전환입니다.

이번 주 발표된 BCG의 5단계 물리적 AI 성숙도 프레임워크(Physical AI maturity framework)는 **Amazon Vulcan을 레벨 4(Level 4)**로 분류했습니다. 이는 이전에 본 적 없는 품목을 포함하여 100만 개 이상의 고유한 제품 SKU(Stock Keeping Units) 중 75%를 자율적으로 처리함을 의미합니다. 이 프레임워크는 운영 및 전략 팀이 자신들의 배포 현황을 정의하고, 이사회에 신뢰할 수 있는 비즈니스 케이스(business case)를 작성할 수 있는 용어를 제공합니다.

자본은 더 이상 투기적이지 않다

손정의(Masayoshi Son) 회장은 이번 주 CNBC와의 인터뷰에서 물리적 AI가 차세대 조 단위 달러 기업이 탄생할 곳이라고 말했습니다. 이는 투자자용 피치 덱(investor decks)에서 반복되는 종류의 인용구입니다. 더 중요한 것은 이미 투입된 자본입니다.

Generalist AI는 6월 4일, 20억 달러의 기업 가치로 4억 달러 규모의 투자 라운드를 마감했습니다. 이번 라운드는 Radical Ventures가 주도했으며 NVIDIA와 Bezos Expeditions가 참여했습니다. 창립 팀에는 DeepMind 출신의 Pete Florence와 Andy Zeng, 그리고 Boston Dynamics 출신의 Andrew Barry가 포함되어 있습니다. 이들의 최신 모델인 GEN-1은 이전 벤치마크보다 3배 빠른 속도로 다양한 정교한 작업(dexterous tasks)에서 99%의 신뢰도를 보고했습니다. 이 모델의 기반이 되는 데이터셋은 전 세계에 배치된 손 모방 그리퍼(hand-mimicking grippers)를 통해 수집된 50만 시간 이상의 실제 로봇 활동 데이터입니다.

다음은 BYD입니다. 세계에서 두 번째로 큰 전기차(EV) 제조업체인 BYD는 6월 4일, 2022년부터 진행해 온 프로젝트인 코드명 'Yao-Shun-Yu' 아래 휴머노이드 로봇을 개발 중임을 확인했습니다. 이미 150개의 프로토타입이 BYD 자체 공장 내부에서 테스트되고 있습니다. 이 회사는 2026년에 내부적으로 20,000대를 배치할 계획이며, 연간 50,000대를 목표로 하는 시안(Xi'an)의 새로운 산업 단지를 구축하고 있습니다. 향후 소비자 판매는 BYD의 기존 딜러 네트워크를 통해 이루어질 예정입니다. Stella Li 부사장은 다음과 같이 명확하게 말했습니다: "자동차 소프트웨어는 복잡하지만, 이를 로봇으로 이식하는 것은 우리에게 매우 쉬운 일입니다."

세계에서 가장 효율적인 배터리 제조업체가 자동차 대리점을 통해 로봇을 판매하기로 결정했을 때, 휴머노이드의 유통 문제는 더 이상 이론적인 문제가 아닙니다.

실제 로봇 벤치마크가 마침내 시뮬레이션을 대체하고 있다

6월 3일부터 7일까지 덴버에서 CVPR 2026 Embodied AI 워크숍이 개최되었습니다. 올해의 ManipArena 경진대회는 시뮬레이터가 아닌, 20개의 별도 조작(manipulation) 태스크에 대해 전적으로 실제 로봇을 사용하여 점수를 매긴 해당 분야 최초의 대회였습니다. 세 가지 챌린지가 병렬로 진행되었습니다: 언어 기반 조작(language-grounded manipulation)을 위한 ARNOLD, 양손 시각-촉각 융합(bimanual vision-tactile fusion)을 위한 ManiSkill-ViTac, 그리고 데스크톱 및 모바일 조작을 위한 ManipArena입니다.

이는 보기보다 훨씬 더 중요한 사건입니다. 시뮬레이션에서 현실로의 전이(Simulation-to-reality transfer)는 수년간 이 분야의 해결되지 않은 신뢰성 문제였습니다. 팀들이 시뮬레이터에서는 1위를 차지하고도 실제 로봇에서는 기본적인 작업조차 실패할 수 있었습니다. 이제 덴버에서 발표된 리더보드는 실제 물리적 숙련도(dexterity)를 반영합니다. 자본은 이러한 순위를 따라 움직일 것입니다.

다음 주목해야 할 사항

GR00T N1.7 얼리 액세스 (early access): 어떤 배포 파트너가 가장 먼저 양산 사용을 발표할 것인지, 그리고 독립적인 벤치마크가 숙련도 스케일링 (dexterity scaling) 주장을 확인해 줄 것인지 여부
BYD 시안 휴머노이드 파크 (BYD Xi'an humanoid park): 건설 일정 및 연간 50,000대 생산 능력 목표의 유지 여부
RoboStrategy 투자자 프레젠테이션 (investor presentation): 6월 10일 진행, Figure AI, Apptronik, Standard Bots를 포함한 포트폴리오 다룸
Automate 2026 휴머노이드 로봇 포럼 (Humanoid Robot Forum): 6월 22~25일 시카고 개최, Boston Dynamics, NEURA Robotics, NVIDIA, Toyota Research Institute 참여
Generalist AI의 GEN-1 99% 신뢰성 주장이 제3자 평가에서도 유지될 것인지 여부

FAQ: Physical AI 스케일링 법칙 (Scaling Laws)과 그 의미

Q: "숙련도를 위한 스케일링 법칙 (scaling law for dexterity)"이란 정확히 무엇인가요?

A: NVIDIA의 GR00T N1.7 연구는 로봇 학습 데이터(training data)를 1,000시간에서 20,000시간으로 늘리면 조작 성공률 (manipulation success rate)에서 예측 가능하고 측정 가능한 개선이 나타난다는 것을 보여주었습니다. 언어 AI (language AI)에서 스케일링 법칙은 연구자들이 학습 전 모델 성능을 예측할 수 있게 해줍니다. 이제 동일한 예측 가능성이 로봇이 물리적 객체를 얼마나 잘 다룰 수 있는지에도 적용되며, 이는 연구소들이 추측 대신 확신을 가지고 데이터 수집 로드맵을 계획할 수 있음을 의미합니다.

Q: GR00T N1.7은 이전 버전과 어떻게 다른가요?

A: GR00T N1.7은 액션 캐스케이드 (Action Cascade) 아키텍처를 사용합니다. 시각-언어 모델 (vision-language model, Cosmos-Reason2-2B)이 액션 토큰 (action tokens)을 생성하면, 32개 레이어의 디퓨전 트랜스포머 (diffusion transformer)가 이를 모터 명령 (motor commands)으로 변환합니다. 결정적으로, 이 모델은 값비싼 원격 조종 (teleoperation) 데이터가 아닌, 1인칭 시점 비디오인 EgoScale 데이터셋으로 학습되었습니다. Apache 2.0 라이선스가 적용되어 어떤 기업이나 연구자도 제한 없이 이를 상업적으로 사용, 수정 및 배포할 수 있습니다.

Q: BYD는 진지한 휴머노이드 로보틱스 경쟁자인가요, 아니면 단순한 보도 자료일 뿐인가요?

A: 여러 신호가 진지한 의도를 가리키고 있습니다. 이 프로젝트는 (현재의 하이프 사이클(hype cycle)이 오기 전인) 2022년에 시작되었으며, 현재 BYD의 자체 공장에는 150개의 프로토타입(prototypes)이 들어와 있습니다. 또한, 이 회사는 대부분의 휴머노이드 스타트업이 완전히 결여하고 있는 배터리 전문 지식, 공급망(supply chain), 그리고 글로벌 딜러 네트워크를 보유하고 있습니다. BYD의 타임라인(timeline)이 그대로 유지될지는 미지수이지만, 그 근저에 깔린 이점들은 홍보용이 아닌 구조적인 것입니다.

Physical AI Digest는 AI와 운영(operations)의 접점에서 도구를 구축하는 폴란드 기반의 기술 기업인 xBerry의 Klaudia가 제작하는 주간 브리핑입니다.