본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 14. 07:17

2026년 Physical AI가 소프트웨어 엔지니어의 다음 전장이 되는 이유

요약

본 기사는 2026년을 기점으로 Physical AI가 소프트웨어 엔지니어에게 새로운 전장이 될 것이라고 분석합니다. 과거 하드웨어 의존성 때문에 로보틱스 분야를 떠났던 필자는, 현재 소프트웨어 스택의 급속한 표준화와 발전으로 인해 소프트웨어만으로도 물리적 현실에 접근할 수 있게 되었다고 판단했습니다. 휴머노이드 시장은 인간 환경에 최적화되어 있어 자금 투자가 집중되고 있으며, VLA(Vision-Language-Action) 모델과 같은 기술이 학습 데이터의 전용을 가능하게 했습니다. 특히 Unitree와 같이 저렴한 가격으로 고성능 로봇 실기 접근성이 높아지면서, 이제는 개인 연구실에서도 물리적 실험이 가능한 시대가 왔음을 강조합니다.

핵심 포인트

  • Physical AI 영역에서 소프트웨어 스택의 표준화 및 발전이 핵심 동력이다.
  • 휴머노이드 형태는 인간 환경에 최적화되어 있어 산업 전반의 자금 투자가 집중되고 있다.
  • VLA(Vision-Language-Action) 모델은 시각, 언어, 동작을 동시에 학습하며 로봇 AI 발전을 가속화하고 있다.
  • Unitree 등 저가형 고성능 로봇의 등장으로 물리적 실기 접근 장벽이 개인 연구실 수준까지 낮아졌다.
  • NVIDIA는 Physical AI를 네 번째 파도로 규정하며 산업 전반에 걸쳐 로보틱스 도입을 촉진하고 있다.

10년 전에 로보틱스를 포기했던 내가, 다시 돌아가려 하고 있다

2014년, 나는 신입 1년 차에 Pepper의 앱 개발을 하고 있었습니다.

Softbank Robotics와 Aldebaran의 프랑스인 엔지니어들과 나란히 서서, SLAM으로 사람을 추적하는 애플리케이션을 구현하여 쇼룸과 Softbank의 이벤트에서 구동시켰습니다.

그로부터 3년 만에 그 영역에서 떠났습니다. 이유는 단순합니다. 하드웨어 의존도가 너무 깊어서, 소프트웨어 단독으로는 승부가 되지 않는다고 판단했기 때문입니다.

센서 캘리브레이션 (Sensor Calibration), 모터 제어 (Motor Control), 안전 기구 (Safety Mechanism), 모든 것이 물리적인 것에 묶여 있었습니다. 내가 좋아하는 '코드를 써서 세계를 만드는' 감각과, 로보틱스의 '물리적 현실과 격투하는' 감각은 결정적으로 레이어 (Layer)가 다르다고 느꼈습니다.

그 판단을, 2026년에 들어서며 철회할지 고민하고 있습니다.

NVIDIA GTC 2026의 Jensen 키노트를 보고, 휴머노이드 (Humanoid) 양산 뉴스를 매주 접하며, 소프트웨어 스택 (Software Stack)이 급속도로 표준화되고 있음을 인식하기 시작했습니다. 10년 전과 지금은 Physical AI 영역의 소프트웨어 엔지니어의 존재 의의가 전혀 다릅니다.

본 기사는 왜 2026년에 Physical AI가 소프트웨어 엔지니어의 다음 전장이 되는가를 업계 동향과 기술 스택 양면에서 정리하려는 시도입니다.

왜 「휴머노이드」에 자금이 집중되고 있는가

Physical AI의 논의는 휴머노이드형 로봇을 빼놓고 이야기할 수 없습니다. 2024-2026년의 자금 투입이 휴머노이드에 집중되는 데에는 이유가 있습니다.

첫째, 인간이 만든 환경은 인간의 형태에 최적화되어 있기 때문입니다. 문손잡이의 높이, 계단의 단차, 공구의 그립. 모든 것이 인간의 신체를 전제로 설계되어 있습니다.

공장을 로봇용으로 개조하는 것보다, 인간 대신 움직일 수 있는 로봇을 만드는 것이 장기적으로는 비용이 저렴합니다. 그런 계산이 성립하는 규모로 드디어 AI와 배터리, 액추에이터 (Actuator)가 진화한 것이 2024-2026년입니다.

둘째, 학습 데이터의 전용입니다. YouTube에 있는 수십억 개의 인간 영상은 인간의 형태를 한 로봇의 학습 데이터로 사용할 수 있습니다. 인간이 컵을 집는 영상을 보고, 휴머노이드가 동일한 동작을 배웁니다. 로봇 암 (Robot Arm)으로는 이러한 전용이 어렵습니다.

VLA (Vision-Language-Action) 모델이라는, 시각과 언어와 동작을 동시에 학습하는 모델 아키텍처 (Model Architecture)가 2024년 이후 보급된 것이 이 전용을 가능하게 하고 있습니다.

2026년 5월 시점의 주요 플레이어

휴머노이드 시장의 주요 플레이어를 정리합니다. 숫자는 2026년 5월 시점의 공개 정보입니다.

기업모델상황가격대누적 자금 조달
FigureF.03BMW 공장에서 가동, OpenAI와 제휴, BotQ 시설에서 연간 12,000대 제조비공개$19억 초과
...유일한 상용 가동 실적, GXO/Toyota/Mercado Libre에서 가동비공개약 $1.5억

여기서 중요한 포인트가 두 가지 있습니다.

Agility Digit만이 「상용 가동」하고 있다

휴머노이드 화제는 화려하지만, 실제로 가동하며 돈을 벌고 있는 것은 Agility Digit뿐입니다 (Humanoid Robot Comparison 2026).

2026년 4월 시점에서, Digit은 GXO 창고에서 10만 개의 토트 (Tote)를 이동시키고 있으며, Toyota, Mercado Libre와 유상 계약을 맺고 있습니다.

Figure 03과 Tesla Optimus는 화제가 앞서가고 있습니다. Figure는 "BMW 공장에서 3만 대의 자동차 생산에 기여했다"고 발표했지만, 이는 시험 가동의 축적입니다. 상용 RaaS (Robot as a Service)의 본격적인 운용은 이제부터라는 것이 정확한 상황입니다.

중국 세력의 양산이 이상할 정도의 속도로 진행된다

Unitree는 2025년에 5,500대, 2026년에 10,000-20,000대를 출하할 예정입니다 (Unitree Production Tracker). $13,500부터 시작하는 가격은 대학 연구실의 기재 예산으로 살 수 있는 수준입니다.

이것이 무엇을 의미하는가. 휴머노이드 실기가 소프트웨어 엔지니어의 손에 닿는 시대가 되었다는 것입니다.

Unitree G1에는 완전한 SDK가 제공되며, ROS 2를 지원합니다. "직접 움직여 보는" 장벽이 급격히 낮아졌습니다.

10년 전에는 연구 기관만이 만질 수 있었던 세계가, 이제는 개인의 연구실(Lab)에서도 실기(Real machine)로 실험할 수 있게 되었습니다. 이것이 제 인식이 바뀐 가장 큰 이유입니다.

NVIDIA GTC 2026: GPU에서 Physical AI로의 전환

2026년 3월의 NVIDIA GTC 2026은, 로보틱스(Robotics)가 키노트의 주인공이 된 상징적인 이벤트였습니다.

NVIDIA는 "모든 산업 기업은 로보틱스 기업이 될 것이다(Every industrial company will become a robotics company)"라고 Jensen Huang이 선언했습니다. Physical AI를 NVIDIA의 네 번째 파도로 규정했습니다.

NVIDIA의 매출 구조를 보면 그 진정성이 느껴집니다.

파도시기사업규모
제1파1999년~Gaming (GeForce)기존
...

NVIDIA의 2025 회계연도 연간 매출액은 약 1,305억 달러로 전년 대비 114% 증가했습니다. 분기당 570억 달러 규모를 기록하고 있으며, Physical AI에 본격적으로 투자할 여력이 충분한 회사입니다.

GTC 2026의 주요 발표

엔지니어가 주목해야 할 기술 발표를 정리합니다.

Isaac GR00T N1.7 / N2 프리뷰: 휴머노이드용 범용 VLA(Vision-Language-Action) 기반 모델. "새로운 환경에서 성공할 확률이 기존 모델보다 2배 이상 높다"고 Jensen이 발언
Cosmos 3: 물리 세계의 합성 데이터(Synthetic data) 생성 모델. 2억 개의 큐레이션된 비디오로 학습
Newton 1.0 물리 엔진 (Physics Engine): NVIDIA / Google DeepMind / Disney Research 공동 개발, Linux Foundation에 기증
Isaac Lab 3.0: DGX 인프라 기반의 대규모 로봇 학습 프레임워크

GR00T N1은 2.2B 파라미터의 VLA 모델로, Hugging Face와 GitHub에 공개되어 있습니다. 파인튜닝(Fine-tuning)이 가능하며, 로봇용 Llama와 같은 위치를 목표로 하고 있습니다.

3대 로보틱스 제조사(ABB Robotics, FANUC, Yaskawa Electric)와의 협력, 그리고 BMW, BYD, Foxconn, Siemens, Toyota, TSMC의 Omniverse 채택을 통해 산업계의 표준화를 빠르게 진행하고 있습니다.

NVIDIA는 단순히 GPU만을 판매하는 것이 아니라, 공장 전체를 디지털화하고 그 안에서 로봇을 학습시키며 실시간으로 운용하는 엔드 투 엔드(End-to-end) 플랫폼을 판매하려 하고 있습니다.

소프트웨어 스택이 표준화되고 있다

2014년에 제가 Pepper를 다루던 시대와 2026년의 결정적인 차이가 바로 여기에 있습니다. 소프트웨어 스택(Software stack)의 표준화가 급속도로 진행되고 있다는 점입니다.

VLA 모델과 시뮬레이션이 로봇의 iOS/Android가 되는 구조

구체적으로는 다음과 같은 레이어(Layer)가 이미 성립되어 있습니다.

[Application] 사용자 고유 태스크
↓
[Foundation] GR00T N1 / Helix / Gemini Robotics (VLA 기반 모델)
...

10년 전과 무엇이 다른가. **파운데이션 레이어(Foundation Layer, VLA 모델)**가 존재하며, 시뮬레이션(Simulation)이 대폭 강화되었습니다.

이는 스마트폰의 역사와 동일한 구조입니다. 하드웨어 제조사는 수십 개에 달했지만, 최종적으로 가치의 대부분을 차지한 것은 OS(iOS/Android)와 앱 개발자였습니다.

휴머노이드에서도 동일한 구조가 태동하고 있습니다. VLA 모델과 시뮬레이션이 OS에 해당하며, 그 위에서 구동되는 앱 개발 시장이 향후 10년 동안 구축될 것입니다.

LeRobot이 "로봇용 Hugging Face"가 된다

Hugging Face의 LeRobot 프로젝트는 **VLA 모델과 데이터셋의 표준 허브(Hub)**를 지향하고 있습니다.

2026년 5월 시점에서 LeRobot에는 수십 개의 VLA 모델과 데이터셋이 모여 있습니다. "Hugging Face에서 BERT를 가져와 전이 학습(Transfer learning)을 하는 것"과 같은 감각으로, VLA 모델을 가져와 로봇에서 파인튜닝하는 미래가 현실화되고 있습니다.

GR00T N1의 크로스 엔보디먼트 (Cross-embodiment) 설계는 Figure, 1X, Unitree 중 어떤 로봇에서도 작동하도록 만들어져 있습니다. 하드웨어 독립적인 소프트웨어 계층 (Software layer) 이 확립되어 가고 있는 것입니다.

일본 세력은 어디에 있는가

일본 로보틱스 업계의 위치를 정리해 보겠습니다.

  • PFN (Preferred Networks): Fanuc과 협력, 산업용 로보틱스에 대한 AI 응용 분야에서 선두
  • Mujin: 피킹 (Picking) 로보틱스 분야에서 다수의 실적 보유, 해외 매출 비중 높음
  • Toyota Research Institute: 「Large Behavior Models」를 통해 독자적인 범용 로보틱스 모델 연구
  • Sony AI / Astribot: 양팔 로봇 연구 공개
  • SoftBank Robotics: Pepper 후속 기기의 동향은 제한적

산업용 로보틱스 (Fanuc, Yaskawa Electric, Kawasaki Heavy Industries, Nachi-Fujikoshi)는 세계 최고 점유율을 유지하고 있지만, 휴머노이드 (Humanoid) 영역에서는 중국과 미국에 뒤처져 있습니다.

Toyota Research Institute의 Large Behavior Models는 기술적으로 세계 최고 수준입니다. 다만, 상용화 속도는 중·미 세력을 따라잡지 못하는 것이 솔직한 평가일 것입니다.

제 개인적인 감각으로는, 일본의 소프트웨어 엔지니어가 VLA 모델을 다룰 기회는 앞으로 1~2년 내에 급격히 늘어날 것이라고 예상합니다.

소프트웨어 엔지니어가 지금부터 공략해야 할 포인트

업계 동향은 이상입니다. 그렇다면 소프트웨어 엔지니어가 2026년에 무엇을 배워야 Physical AI 영역에서 승리할 수 있을까요?

제 판단은 다음과 같습니다.

하드웨어가 아닌, 소프트웨어 스택 (Software stack)에 승부수를 던져라

하드웨어 경쟁은 자본 게임입니다. 개인 엔지니어가 들어설 여지는 없습니다.

하지만 소프트웨어 스택은 다릅니다. VLA 모델의 파인튜닝 (Fine-tuning), 시뮬레이션 환경 구축, ROS 2 애플리케이션 설계, 데이터셋 생성 영역은 앞으로 인력이 부족해질 것입니다.

LeRobot / Isaac Lab / Newton을 다뤄라

구체적으로 다뤄야 할 도구는 다음과 같습니다.

  • LeRobot: Hugging Face에서 VLA 모델을 가져와 시뮬레이션 환경에서 구동
  • Isaac Lab 3.0: NVIDIA의 DGX 또는 개인 PC에서 로봇 학습의 기초를 이해
  • Newton 1.0: 물리 시뮬레이션 (Physical simulation)의 표준을 이해
  • Unitree G1 SDK: $13,500 상당의 실기기로 Sim-to-Real 감각을 익히기 (또는 기존 연구실 장비 활용)

"로봇을 살 필요는 없다"는 것이 2026년의 전제입니다. 시뮬레이션 환경만으로 90%의 학습이 완결되는 시대가 되었습니다.

LLM × 로보틱스의 교차점을 노려라

제가 가장 투자 가치가 높다고 생각하는 영역은 LLM과 로보틱스의 교차점입니다.

구체적으로는, Claude/GPT로 "거실을 정리해줘"라고 지시하면, VLA 모델이 구체적인 동작 시퀀스 (Action sequence)로 분해하여 로봇을 움직이는 것입니다. Anthropic이 2025년에 발표한 로보틱스 연구, OpenAI가 Figure와 협력한 경위, Google이 Gemini Robotics를 발표한 이유 모두 이곳을 향하고 있습니다.

LLM으로 자연어 처리 (NLP)를 할 수 있는 엔지니어는 Physical AI 영역으로 진출할 때 큰 선점 이익을 얻게 됩니다. 저의 개인 프로젝트에서도 LLM × VLA 실험을 시작했습니다.

「커리어를 어디에 걸 것인가」가 분수령이 된다

세상은 자신이 보이는 세계가 전부라는 것이 저의 지론입니다.

평생 마을을 떠나지 않은 사람도, 세계를 누비는 사람도, 각자 보이는 것은 자신의 세계뿐입니다. 어느 쪽이 멋진 인생인지는 그 사람에게 달려 있습니다.

무엇을 지침으로 삼느냐가 그 사람의 인생을 결정합니다.

엔지니어의 커리어도 마찬가지입니다. Web만 계속 바라볼 것인지, Physical AI로 시야를 넓힐 것인지는 본인이 결정할 문제입니다.

저는 10년 전에 로보틱스를 포기하고 SaaS / Web의 세계에서 일해 왔습니다. 연봉 기준으로 5배가 되었고, 그 자체를 후회하지는 않습니다.

다만, 10년 후의 내가 과거를 되돌아봤을 때, Physical AI의 파도를 보지 못했던 자신을 용서할 수 있을 것인가가 지금 저의 질문입니다.

적어도, 시뮬레이션 환경을 다루기 시작하기로 결정했습니다. LeRobot으로 시작해서, Isaac Lab에서 실험하는 것. 이것이 저의 2026년의 결단입니다.

"재미있게 가보자"라고 말할 수 있는 스스로가 되기 위해, 새로운 전장에 뛰어들 각오는 해두고 싶다는 것이 솔직한 심정입니다.

요약

  • 휴머노이드 (Humanoid)는 하드웨어의 형태가 아니라, **인간 환경에 대한 적응성과 학습 데이터의 전용 (Transferability)**으로 선택된다
  • 2026년 5월 시점에서 실제로 상용 가동 중인 것은 Agility Digit뿐. 나머지는 시험 가동 중
  • Unitree는 2026년에 10,000~20,000대 출하 예정, $13,500부터. 개인 엔지니어의 손에 닿는 시대에
  • NVIDIA GTC 2026에서 GR00T N1.7 / Cosmos 3 / Newton 1.0 / Isaac Lab 3.0이 발표. 엔드 투 엔드 (End-to-End) 스택이 완성
  • 스마트폰 시장과 동일한 구조로, **VLA 모델과 시뮬레이션 (Simulation)**이 OS가 된다
  • 일본 세력은 산업용 로보틱스에서는 강하지만, 휴머노이드는 뒤처져 있다
  • 소프트웨어 엔지니어가 임해야 할 곳은 하드웨어가 아니라 스택 (Stack). LeRobot / Isaac Lab / Newton부터 시작
  • 가장 뜨거운 곳은 LLM × 로보틱스의 교차점. Anthropic / OpenAI / Google이 이곳에 집중

10년 후에 이기지 못하는 쪽에 서 있는 것 같다는 것이 지금 저의 기분입니다.

그 초조함을 새로운 전장으로 뛰어드는 연료로 삼으려 합니다.

Physical AI의 전체 모습에 대해서는, 별도로 Physical AI 입문이라는 형태로 책을 집필 중입니다. NVIDIA Cosmos, GR00T, VLA 모델, Sim-to-Real, 일본 세력의 동향까지 포함하여 정리할 예정입니다.

관련 기사

  • Claude Code로 로봇을 움직이게 했더니 — 개인 체험 기반의 피지컬 AI 연결 실험
  • 생성 에이전트가 마을에서 살다 — 버추얼 생성 에이전트 측의 연구

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0